11 Fri
ํ์
์ค๋ฌด์์๊ฒ ๋ฐฐ์ฐ๋ Kaggle ๋จธ์ ๋ฌ๋ ์
๋ฌธ
์ค์ ๋ก ํ์ฌ์์ ์งํํ๋ ๋จธ์ ๋ฌ๋ ์
๋ฌด ํ๋ก์ธ์ค
Rawํ ๋ฐ์ดํฐ๋ก๋ถํฐ ์์ง, ์ ๋ฆฌ, ์ ์ ๊น์ง ํด์ผํ๋ ๊ฒฝ์ฐ๊ฐ ๋๋ถ๋ถ
๋ฐ์ดํฐ๋ง์ ๋ณด๊ณ ์ค๊ฐ์ ์์ฌ๊ฒฐ์ ์ด ์ธ์ ๋ ๋ฐ๋ ์ ์๋ค
ํ๋ก์ ํธ ์ค๋จ๋ ๊ฐ๋ฅ
๋ฐ๋ผ์, ์ค๊ฐ ๋ณด๊ณ ๊ฐ ํ์์ ์ด๋ค
๋ชจ๋ธ๋ง ๊ฒฐ๊ณผ์ ๋ํด ๋น์ฆ๋์ค ์ ์ผ๋ก ์๋ฏธ๊ฐ ์์ด์ผ ํ๋ฉฐ ์ด๋ฅผ ๋๋ฉ์ธ ์ ๋ฌธ๊ฐ๋ค์๊ฒ ์ค๋์์ผ์ผ ํ๋ค
๋๋ฉ์ธ ์ ๋ฌธ๊ฐ์ ์ ๋๋ก ๋ ๋์๋ฅผ ์ป์ง ๋ชปํ ๋ชจ๋ธ์ ๋ณธ๊ฒฉ์ ์ผ๋ก ์ฌ์ฉํ๋๊ธฐ ์ด๋ ต๋ค
๊ฐ๋ฐํ ML ๋ชจ๋ธ์ด
์์ฉํ
๋๋ ๊ฒ์ ๋ ๋ค๋ฅธ ๋ฌธ์ ์ด๋ค. ๊ฐ๋ฐ ์ด์๊ฐ ์์ฃผ ๋ง๊ธฐ ๋๋ฌธ์ ๋ง์ ์ง์์ด ํ์ํ๋ค
๊ฐ์ฅ ์ค์ํ ๊ฒ์ ๋ฐ์ดํฐ, ๋ ๋ฒ์งธ๋ก ์ค์ํ ๊ฒ๋ ๋ฐ์ดํฐ
์ ์ด์ ๋ฐ์ดํฐ๊ฐ ๋ถ์ ํฉํด์ ์์ํ์ง๋ ๋ชปํ๊ฑฐ๋ ์ง์ฐ๋๋ ๊ฒฝ์ฐ๊ฐ ๋งค์ฐ ๋งค์ฐ ์์ฃผ ๋น๋ฒํ ๋ง๋ค
๊ธฐํ์ ์๊ตฌ์ฌํญ์ ์ถฉ์กฑ์ํค๋ ๋ฐ์ดํฐ๋ ๋ฐ์ดํฐ feature๊ฐ raw๋ฐ์ดํฐ๋ฅผ ์ง์ ๋ณด๋ ์๋ ๊ฒฝ์ฐ
์ด๋ฏธ ์กด์ฌํ๋ค๊ณ ์๊ฐํ๋ ๋ฐ์ดํฐ feature๊ฐ ํ ๋ถ์ ์ ์ฅ์์๋ ์ค์ํ์ง ์์ feature์ฌ์ ์ ๋๋ก ๊ฐ๋ฐ๋์ง ์์ ๊ฒฝ์ฐ
๋ฐ์ดํฐ feature๋ ์กด์ฌํ๋ ๊ณ์๋ ์ฝ๋ ๋ฒ์ ์ ์ผ๋ก ์ธํด ๋ฐ์ดํฐ ํํ์ ๊ฐ์ด ๊ณ์ ๋ฐ๋์ด ์จ ๊ฒฝ์ฐ
์์งํ ๋ฐ์ดํฐ์์ ๋ฐ์ํ ์ ์๋ ๋ฌธ์
์ผ๊ด์ฑ ์๋ ๋ฐ์ดํฐ
์์ธ ๊ฐ๋ค์ ๋ํ ํด์
0๋๋ -1, None, N/A, Nan์ ๋ํ ์๋ฏธ ํ์
๋ฐ์ดํฐ ๊ฐ์ด ๋ฐ๋ฆผ
์ค๋ณต
๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ์ค์ ๋ฐ์ํ ์ ์๋ ๋ฌธ์
์ ์ฒ๋ฆฌ๋ฅผ ์ํด ํ๋์ ํ์ผ์ด ์๋ ์ฌ๋ฌ ๊ฐ์ ํ์ผ์ ์ฐธ์กฐํ๊ณ ํด์ํด์ผ ํ๋ ๊ฒฝ์ฐ
Naive ํ๊ฒ ๊ตฌํํ๋ฉด ํ๋ฌ~1๋ ์ด ๋๋ ์ฒ๋ฆฌ์๊ฐ์ด ๊ฑธ๋ฆด ์๋ ์๋ค
๋ฐ์ดํฐ ๊ด๋ จ ๋ฌธ์ ๋ ๋ฐ๋์ ์์ ์ ์์์ ๋ฏธ๋ฆฌ ์ธ์งํ ๊ฒ
Kaggle/๋ฐ์ด์ฝ๊ณผ ๋ค๋ฅด๊ฒ, ์ค์ ์
๋ฌด์์ ์ค์ํ๊ฒ ์ฌ๊ธฐ๋ ๊ฒ์?
์บ๊ธ/๋ฐ์ด์ฝ ๋ฑ์ ๋ฐ์ดํฐ ๊ฒฝ์ง๋ํ๋ ์ฑ๋ฅ ์งํ๋ฅผ ์ ์ผ ์ค์ํ๊ฒ ์ฌ๊ธด๋ค
Accuracy, F1-score
์ฑ๋ฅ ์งํ๋ฅผ ์ฌ๋ฆฌ๊ธฐ ์ํด ๋ง์ง๋ง๊น์ง ๊ฒฝ์์ด ์น์ด
์ค์ ์ ๋ฌด์์๋ 0.05 ~ 0.1 ์ ๋์ ์ฑ๋ฅ ์งํ ์ฐจ์ด๋ ๊ฒฐ์ฝ ์ค์ํ์ง ์๋ค
score 0.05๋ฅผ ์ฌ๋ฆฌ๋ ๊ฒ ๋ณด๋ค ์ ์ฉํ ๊ฒฐ๋ก ๋ค์ด ๋ ๋ง์ ๊ฒ์ด ์ค์ํ๋ค
์ ์ฉํ ๊ฒฐ๋ก ๋ค์ ๋น์ฆ๋์ค๋ ์์ฌ๊ฒฐ์ ์ ๋์์ด ๋๋ ๋ฐ์ดํฐ ๋ถ์ ๋ฐ ๋ชจ๋ธ๋ง ๊ฒฐ๊ณผ๋ฅผ ์๋ฏธ
์ด๋ ์ ๋ ์ฌ์ฉํ ๋งํ ์ค์ฌ์ฉ ์ฑ๋ฅ์ด ๋์ฌ ๋ ๊น์ง๋ ์ฑ๋ฅ ์งํ๋ฅผ ๊ฐ์ ํ์ง๋ง ๊ทธ ์ดํ์๋ ์ธ์ฌ์ดํธ ๋ถ์์ ์ง์ค
์ด ๊ณผ์ ์์ ML ๋ชจ๋ธ๊ณผ ๋น์ฆ๋์ค๋ฅผ ์ ์ฐ๊ด์์ผ ์ค๋/๋ฐํํ์ฌ์ผ ํ๋๋ฐ, XAI๊ฐ ๋ง์ด ์ฌ์ฉ๋๋ค
XAI : eXplainable AI, ์ค๋ช ๊ฐ๋ฅํ ์ธ๊ณต์ง๋ฅ
๋ ๊ฒฝ์ฐ, ๋ค ๋ชจ๋ธ์ ๊ฐ์ธํจ์ ๋งค์ฐ ์ค์ํ๋ค
๊ฐ์ธํจ : ์ด๋ค ๋ฐ์ดํฐ์ ์ ์ ์ฉํ๋ ์ง ์ค์ํ๊ณ ์์ ์ ์ธ ์ฑ๋ฅ
๋ฐ๋ผ์ ๊ฒ์ฆ์ ๋ ธ๋ ฅ์ ๋ง์ด ๊ธฐ์ธ์ธ๋ค.
๋จธ์ ๋ฌ๋ ์์ง๋์ด, ์ผ์๋ฌ๋ก ๊ฑฐ๋ญ๋๋ณด์
๋ฐ์ดํฐ ์์ง ๋ฐ ์ฒ๋ฆฌ ๊ณผ์ ์ ๋ํด Data Engineer์ ํจ๊ป ์ด์ผ๊ธฐํ์
๋จธ์ ๋ฌ๋ ๊ณผ์ ์์ ํ์ํ ๋ถ๋ถ์ ๋ฏธ๋ฆฌ ์กฐ์จํ ๊ฒ
๋๋ก๋ ์์ด๋์ด๋ ์ ์ ๊ฐ๋ฅ
๋จธ์ ๋ฌ๋์ ๋ฌธ์ ์ ์์์๋ถํฐ ์ถ๋ฐํ๋ค. ๋ฌธ์ ๋ฅผ ์ด๋ป๊ฒ ์ ์ํ๋๋์ ๋ฐ๋ผ ํ์ด๊ฐ๋ ๋ฐฉํฅ์ด ๋ฌ๋ผ์ง๋ค.
๋ฌธ์ ์ ์๊ฐ ์๋ชป๋๋ฉด ์ดํ์ ์ ๊ทผ๋ฒ๋ ์ธ๋ชจ๊ฐ ์์ด์ง๋ ๊ฒฝ์ฐ ๋ง๋ค
๋จธ์ ๋ฌ๋์ผ์ด ๊ฒฐ๊ณผ ๋ชจ๋ธ์ด ๋น์ฆ๋์ค์ ์ผ๋ก ์ด๋ ํ ์๋ฏธ๋ฅผ ๊ฐ์ง๋์ง, ์ฒ์๋ถํฐ ๊ณ ๋ฏผํ์
์ ๋๋ก ๋
๋ฌธ์
๋ฅผ ์ก๋๋ผ๋ ๋น์ฆ๋์ค์ ์ผ๋ก๋ ์๋ฏธ๊ฐ ์์ด์ผ์ฑ๊ณผ
๋ผ๊ณ ํ ์ ์๋ค.
๋ค์ํ ๋ชจ๋ธ๋ง ๋ฐ ๊ธฐ๋ฒ ์ ์ฉ์ ๋ง์ด, ๋นจ๋ฆฌ ํด์ผํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ฅผ ์ ๊ณต์ ํ๊ณ ๋ฐฉํฅ์ฑ์ ํ์ํด์ผ ํ๋ค
๋จธ์ ๋ฌ๋ ๋ชจ๋ธ๋ง์ ์ค๊ฐ ๊ฒฐ๊ณผ์ด์ง๋ง ๋ค๋ฅธ ๋๋ฃ๋ค์ ์ ๋ฌด์ ์์ฌ๊ฒฐ์ ์ ํฐ ๋์์ด ๋๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค => ๊ณต์ ํ ๊ฒ
๋ ๋๋ํ๊ฒ ์ผ ์ํ๋, ๋จธ์ ๋ฌ๋ ์ฝ๋ ๋ง๋๋ ๋ฐฉ๋ฒ
์ ์ฒ๋ฆฌ ์ฝ๋๋ฅผ 1ํ์ฉ์ผ๋ก ์ง์ง ๋ง๊ณ , ์กฐ๊ธ์ด๋ผ๋ ๊ณ ๋ฏผํ์ฌ ์ธ๋ชจ ์๊ฒ ์ง๋ณด๊ธฐ
๋ฐ๋๋ก ๋๋ฌด ์ฒ์๋ถํฐ ์๋ฒฝํ ์ฝ๋๋ฅผ ์ง๋ ค๊ณ ํ๋ฉด ์๋๋ค
์ ์ฒ๋ฆฌ ์ฝ๋๋ 1ํ์ฑ์ธ ๋ถ๋ถ๋ ์๋น๋ถ๋ถ ์กด์ฌํ๊ธฐ ๋๋ฌธ์ด๋ค
์ ์ก๋ ์นผ์ ๋ญ ์ก๋ ์นผ๋ก ์ฐ์ง ๋ง๊ธฐ
๋ฐ์ดํฐ ์์ง, ์ ์ฒ๋ฆฌ๋ฅผ ๋ง์ด ํด ๋ณด๋ฉด, ์ด๋ ์ ๋ ๋ฐ๋ณต๋๋ ํจํด์ด ๋ณด์ด๋๋ฐ, ์ด๊ฒ๋ค์ ๋ชจ๋(๋ผ์ด๋ธ๋ฌ๋ฆฌ)ํ ํ๋ฉด ์ข๋ค
๋ณดํต Jupyter Notebook์์ ํ๋กํ ํ์ดํ์ ํ๊ณ
์๋ฒฝํ๊ฒ ๋ชจ๋ํ ํ ๋๋ Python IDE์์ ๊ฐ๋ฐํ๋ค
EDA ๋ฐ ์๊ฐํ ์ฝ๋๋ฅผ ์ง๋ ๊ฒฝ์ฐ์๋ ๊ณ ๋ฏผํด์ ์ฝ๋๋ฅผ ์ง๊ณ , ๋ฐ๋ณตํด์ ๋ฐ์ํ๋ฉด ๋ชจ๋ํ ํ๋ค
ํ๋ฒ ์ ๋ง๋ค์ด๋๋ฉด feature๋ ์ปฌ๋ผ๋ช ๋ง ๋ฐ๊พธ์ด์ ์ฌ์ฉํด๋ ๋๋ ๊ฒฝ์ฐ๊ฐ ์์ฃผ ๋ง๋ค
๊ณ์ ๋ฐ์ ์ํฌ ์๋ ์๋ค
์กฐ๊ธ์ฉ ์์ด๋ ์ฌ์ฌ์ฉ๊ฐ๋ฅํ ์ฝ๋ / ๋ชจ๋๋ค์ ๋ชจ๋ ์ ๋ฌด๋ฅผ ๋ ๋น ๋ฅด๊ฒ ์ฒ๋ฆฌํ ์ ์๊ฒ ํด์ค๋ค
์ฌ์ฌ์ฉ ๊ฐ๋ฅํ ๋ชจ๋๋ค์ด ์์ฌ์๋ A ์์ง๋์ด์ ๊ทธ๋ ๊ธฐ ์์ B ์์ง๋์ด์ ์์ฐ์ฑ ์ฐจ์ด๋ ๋งค์ฐ ํฌ๋ค
ํ์ต์ ์ํํ๋ Training ์ฝ๋๋ ๊พธ์คํ ์ฌ์ฉํ๊ฒ ๋ ๊ฐ๋ฅ์ฑ์ด ๋์ผ๋ฏ๋ก, ๋ฏธ๋ฆฌ ์ด๋ฅผ ์ผ๋ํด๋๊ธฐ
๋ฐ๋๋ ์ฃผ์ ๋ณ์๋ค : Dataset, Epoch, Validation N-group, Model, Parameters, Features, etc
Training๊ณผ Validation, Parameter Optimization์ ๋ฌด์ํ๊ฒ ๋ง์ด ํ๊ธฐ ๋๋ฌธ์ ๋ฐ๋ณต์์ ์ ๋ํด์๋ ์๋ํ ํ ์ ์๋ ๋ถ๋ถ์ ์๋ํ ํ๊ธฐ
์ด๋ฏธ ๋ง๋ฑ๋ฌ์ง ์ข์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ ํ๋ ์์ํฌ๊ฐ ์์ ๊ฐ๋ฅ์ฑ์ด ํฌ๋ฏ๋ก ์ง์ ๊ฐ๋ฐํ๊ธฐ ์ ๊ผญ ๋ฆฌ์์น ํด๋ณด๊ธฐ
๊ฐ์ฅ ๋ฐ๋์งํ ๊ตฌ์กฐ๋
๋ฐ์ดํฐ
-๋จธ์ ๋ฌ๋ ํ๋ จ
-๊ฒ์ฆ & ์ต์ ํ
-์๊ฐํ
์ ์ฐ์์ ์ธPipeline
์ ์์ ์์ฌ๋ก ๋๋ค ๋ถ์๋ค ํ ์ ์๋ ์ ์ฐํ๊ฒ ์์ ์ด ๊ฐ๋ฅํ ์ฝ๋์ ๋ฌด ์ด๋ฐ ๋ณด๋ค๋ ํ๋ก์ ํธ ์๋๊ฐ๋ฅผ ์๋ฃํ์ ๋ฌด๋ ต๋ถํฐ ๊ณ ๋ฏผํด๋ณด๊ธฐ
๊ฐ์ฅ ๋ชธ ๊ฐ์ด ๋น์ผ Role, ์ญ๋์ด ๋ฌด์์ผ๊น?
DS/ML/SW End-to-End Engineer
Data Science, Machine Learning, SW๊ฐ๋ฐ์ ๋ํด ๋ชจ๋ ๊ณผ์ ์ ์ดํดํ๊ณ ์๋ ์ธ์ฌ
DS/ML Competition Winner, Optimization Professional
Optimization ๊ด์ ์์ ๋จ๋ค๊ณผ ๋ค๋ฅธ ํ์ํจ์ ๋ณด์ฌ์ค ์ ์๋ ์ธ์ฌ
Machine Learning, Product S/W Engineer
๋จธ์ ๋ฌ๋์ ๋จ์ ์ฐ๊ตฌ๋ก๋ง ์ํํ๋ ๊ฒ์ด ์๋๋ผ ์ค์ ์ ํ์ ์ด๋ฅผ ์ ์ฉํ๊ณ ์ด์ฉํด๋ณธ ๊ฒฝํ์ด ์๋ ์ธ์ฌ
Last updated
Was this helpful?