julia coding story

๋จธ์‹ ๋Ÿฌ๋‹ ๊ธฐ์ดˆ ๊ฐœ๋…-02. Data Split (1) ๋ณธ๋ฌธ

์นดํ…Œ๊ณ ๋ฆฌ ์—†์Œ

๋จธ์‹ ๋Ÿฌ๋‹ ๊ธฐ์ดˆ ๊ฐœ๋…-02. Data Split (1)

julia-biolat 2023. 5. 9. 00:27
728x90

 ๐Ÿ’ก data split : ํ•™์Šต์— ์‚ฌ์šฉํ•  ๋ฐ์ดํ„ฐ์™€ ํ‰๊ฐ€๋ฅผ ํ•  ๋•Œ ์‚ฌ์šฉํ•  ๋ฐ์ดํ„ฐ๋ฅผ ๋‚˜๋ˆ„๋Š” ๋ฐฉ๋ฒ•

  • data split : train-test split์„ ์ด์•ผ๊ธฐํ•จ(test/ test ๋ฐ์ดํ„ฐ๋ฅผ ๊ฒน์น˜์ง€ ์•Š์Œ)
  • training data๋Š” ํ•™์Šต์— ์‚ฌ์šฉํ•˜๊ณ , test data๋Š” ํ‰๊ฐ€์— ์‚ฌ์šฉํ•จ
  • ์ง๊ด€์ ์ธ ์„ค๋ช…์„ ์œ„ํ•ด ์˜ˆ์‹œ๋ฅผ ํ•˜๋‚˜ ๊ฐ€์ •ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.
    • ์šฐ๋ฆฌ๋Š” 2022๋…„ โ€œ๋จธ์‹ ๋Ÿฌ๋‹โ€ ๊ณผ๋ชฉ์˜ ๊ธฐ๋ง๊ณ ์‚ฌ๋Š” 100์  ๋งž๊ณ  ์‹ถ์Šต๋‹ˆ๋‹ค.
    • ์šฐ๋ฆฌ์—๊ฒ 10๋…„์น˜ ์กฑ๋ณด ๋ฌธ์ œ์™€ ๋‹ต์•ˆ์ด ํ•จ๊ป˜ ์žˆ์Šต๋‹ˆ๋‹ค. (์™„๋ฒฝํ•œ ๋‹ต์•ˆ์ด๋ผ๊ณ  ๊ฐ€์ •ํ•ฉ๋‹ˆ๋‹ค)
    • ๊ธฐ๋ง๊ณ ์‚ฌ๋ฅผ 100์  ๋งž๊ธฐ ์œ„ํ•ด์„œ ์–ด๋–ป๊ฒŒ ๊ณต๋ถ€ ๋ฐฉ๋ฒ•์„ ์„ค๊ณ„ํ•˜๋Š” ๊ฒƒ์ด ์ข‹์„๊นŒ์š”?
      1. 8๋…„์น˜๋ฅผ ์—ด์‹ฌํžˆ ๊ณต๋ถ€ํ•˜๊ณ (์˜ค๋‹ต์ •๋ฆฌ), 2๋…„์น˜๋Š” ์‹œํ—˜ ์ง์ „ ๋‚ ์— ํ’€๊ธฐ
      2. โ†’ train - test split
      3. 6๋…„์น˜ ์—ด์‹ฌํžˆ ๊ณต๋ถ€ํ•˜๊ณ (์˜ค๋‹ต์ •๋ฆฌ), ๊ทธ ๋•Œ๋งˆ๋‹ค 2๋…„์น˜๋ฅผ ํ’€์–ด๋ณด๊ณ  ์ ์ˆ˜๋ฅผ ์ฒดํฌํ•œ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์‹œํ—˜ ์ง์ „๋‚ ์— ๋งˆ์ง€๋ง‰ 2๋…„์น˜๋ฅผ ํ’€์–ด๋ณธ๋‹ค.
      4. โ†’ train - vaildation - test split
    • ์šฐ๋ฆฌ์˜ ๋ชฉํ‘œ๋Š” ์กฑ๋ณด์— ์•ˆ๋‚˜์™”๋˜ ์‹ค์ œ ๊ธฐ๋ง๊ณ ์‚ฌ๋ฅผ 100์  ๋งž๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ์ž„.
    • โ†’ ์•ˆ ํ’€์–ด๋ณธ ์กฑ๋ณด์— ๋Œ€ํ•œ ์˜ˆ์ธก(Prediction for Unseen data)
  • ์˜ˆ์ธก ์„ฑ๋Šฅ์„ ์˜ฌ๋ฆฌ๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•จ.