julia coding story
๋จธ์ ๋ฌ๋ ๊ธฐ์ด ๊ฐ๋ -02. Data Split (1) ๋ณธ๋ฌธ
728x90
๐ก data split : ํ์ต์ ์ฌ์ฉํ ๋ฐ์ดํฐ์ ํ๊ฐ๋ฅผ ํ ๋ ์ฌ์ฉํ ๋ฐ์ดํฐ๋ฅผ ๋๋๋ ๋ฐฉ๋ฒ
- data split : train-test split์ ์ด์ผ๊ธฐํจ(test/ test ๋ฐ์ดํฐ๋ฅผ ๊ฒน์น์ง ์์)
- training data๋ ํ์ต์ ์ฌ์ฉํ๊ณ , test data๋ ํ๊ฐ์ ์ฌ์ฉํจ
- ์ง๊ด์ ์ธ ์ค๋ช
์ ์ํด ์์๋ฅผ ํ๋ ๊ฐ์ ํ๊ฒ ์ต๋๋ค.
- ์ฐ๋ฆฌ๋ 2022๋ โ๋จธ์ ๋ฌ๋โ ๊ณผ๋ชฉ์ ๊ธฐ๋ง๊ณ ์ฌ๋ 100์ ๋ง๊ณ ์ถ์ต๋๋ค.
- ์ฐ๋ฆฌ์๊ฒ 10๋ ์น ์กฑ๋ณด ๋ฌธ์ ์ ๋ต์์ด ํจ๊ป ์์ต๋๋ค. (์๋ฒฝํ ๋ต์์ด๋ผ๊ณ ๊ฐ์ ํฉ๋๋ค)
- ๊ธฐ๋ง๊ณ ์ฌ๋ฅผ 100์ ๋ง๊ธฐ ์ํด์ ์ด๋ป๊ฒ ๊ณต๋ถ ๋ฐฉ๋ฒ์ ์ค๊ณํ๋ ๊ฒ์ด ์ข์๊น์?
- 8๋ ์น๋ฅผ ์ด์ฌํ ๊ณต๋ถํ๊ณ (์ค๋ต์ ๋ฆฌ), 2๋ ์น๋ ์ํ ์ง์ ๋ ์ ํ๊ธฐ
- โ train - test split
- 6๋ ์น ์ด์ฌํ ๊ณต๋ถํ๊ณ (์ค๋ต์ ๋ฆฌ), ๊ทธ ๋๋ง๋ค 2๋ ์น๋ฅผ ํ์ด๋ณด๊ณ ์ ์๋ฅผ ์ฒดํฌํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ํ ์ง์ ๋ ์ ๋ง์ง๋ง 2๋ ์น๋ฅผ ํ์ด๋ณธ๋ค.
- โ train - vaildation - test split
- ์ฐ๋ฆฌ์ ๋ชฉํ๋ ์กฑ๋ณด์ ์๋์๋ ์ค์ ๊ธฐ๋ง๊ณ ์ฌ๋ฅผ 100์ ๋ง๋ ๊ฒ์ด ๋ชฉํ์.
- โ ์ ํ์ด๋ณธ ์กฑ๋ณด์ ๋ํ ์์ธก(Prediction for Unseen data)
- ์์ธก ์ฑ๋ฅ์ ์ฌ๋ฆฌ๋ ๊ฒ์ด ์ค์ํจ.