5 Fri
[ํ์ด์ฌ ๋ฅ๋ฌ๋ ํ์ดํ ์น] PART 02 AI Background
01 ์ธ๊ณต์ง๋ฅ(๋ฅ๋ฌ๋)์ ์ ์์ ์ฌ๋ก
์ธ๊ณต์ง๋ฅ
์ธ๊ฐ์ ์ง๋ฅ์ผ๋ก ํ ์ ์๋ ์ฌ๊ณ ํ์ต, ์๊ธฐ ๊ฐ๋ฐ ๋ฑ์ ์ปดํจํฐ๊ฐ ํ ์ ์๋๋ก ํ๋ ๋ฐฉ๋ฒ์ ์ฐ๊ตฌํ๋ ์ปดํจํฐ ๊ณตํ ๋ฐ ์ ๋ณด ๊ธฐ์ ์ ํ ๋ถ์ผ๋ก, ์ปดํจํฐ๊ฐ ์ธ๊ฐ์ ์ง๋ฅ์ ์ธ ํ๋์ ๋ชจ๋ฐฉํ ์ ์๋๋ก ํ๋ ๊ฒ
์ปดํจํฐ๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด ํ์ตํ ์ ์๋๋ก ํ๋ ๊ธฐ์
์ธ๊ณต์ง๋ฅ์ ์ฌ๋ก
์ด๋ฏธ์ง ๋ถ๋ฅ
๊ฐ์ฒด ํ์ง
ํ ์คํธ
๊ธฐ๊ณ ๋ฒ์ญ
๋ฌธ์ฅ(๋๋ ๋ฌธ์) ๋ถ๋ฅ
์ง์ ์๋ต ์์คํ
๊ฐ์ฒด๋ช ์ธ์
์ํ๊ณ
GAN
Generative Adversarial Networks
Style Transfer
๋์ ์ฌ์ง์ ๊ณ ํํ์ผ๋ก ๋ฐ๊ฟ์ฃผ๊ฑฐ๋ ๋ฎ ํ๊ฒจ์ ์ฌ์ง์ ๋ฐค ํ๊ฒฝ์ ์ฌ์ง์ผ๋ก ๋ฐ๊ฟ์ฃผ๋ ๊ฒ
Deepfake
02 ํ์ดํ ์น
ํ ์ํ๋ก์ฐ
๊ตฌ๊ธ์ด ๋ง๋ค์๊ณ ํ์ดํ ์น๋ณด๋ค ๋จผ์ ์ถ์๋จ
์ฝ๋๊ฐ ์ง๊ด์ ์ด์ง ์๊ณ ๋๋ฒ๊น ์ด ์ด๋ ต๋ค
์ด๋ฌํ ๋จ์ ์ ๋ณด์ํ๊ธฐ ์ํด 2.0 ๋ฒ์ ์ด์์์๋ ์ผ๋ผ์ค๋ฅผ ์ด์ฉํด ๊ฐ๋ ์ฑ๊ณผ ํธ์์ฑ์ ์ ๊ณต
ํ์ดํ ์น
ํ์ด์ค๋ถ์ด ๋ง๋ค์๋ค
์ฝ๋๊ฐ ์ง๊ด์ ์ด๊ณ ๋๋ฒ๊น ์ด ์๋์ ์ผ๋ก ์ฌ์ฐ๋ฉฐ ์ฝ๋ ์ปค์คํ ์ด ์ฝ๋ค
03 ๋จธ์ ๋ฌ๋์ ์ ์์ ์ข
๋ฅ
๋จธ์ ๋ฌ๋๊ณผ ์ธ๊ณต์ง๋ฅ
์ ์๋ ๋์ผํ์ง๋ง ์ฌ์ฉํ๋ ๋ถ์ผ๊ฐ ๋ค๋ฅด๋ค.
๋จธ์ ๋ฌ๋์ ํ๊ณผ ์ด์ด ์กด์ฌํ๋ ํ๋ ฌ์ ์ด์ฉํด ์์ธก ๋๋ ๋ถ๋ฅ๋ฅผ ํ ๋ ์ฌ์ฉ
์ด๋ฏธ์ง์ ํ ์คํธ ๊ฐ์ ์ ํํ๋์ด ์์ง ์์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ ๋๋ ์ธ๊ณต์ง๋ฅ(๋ฅ๋ฌ๋)์ ์ฌ์ฉํ๋ค.
ํฌ๊ฒ ๋ณด๋ฉด ๋จธ์ ๋ฌ๋์ ์ธ๊ณต์ง๋ฅ ์์ ํฌํจ๋๋ ๊ฐ๋ ์ด์ง๋ง ๋์ค์๊ฒ๋ ํผ์ฉํด์ ์ฌ์ฉํ๋ค.
๋จธ์ ๋ฌ๋์ ์ข ๋ฅ
๋ชจ๋ธํ์ต
ํ์ต ๋ชฉํ๋ ๋ฐ์ดํฐ์ ๋ํ ๋ชจ๋ธ์ ๊ฒฐ๊ณผ๊ฐ ์ ๋ต์ ๊ฐ๊น๊ฒ ๋์ค๋๋ก ํ์ต์ํค๋ ๊ฒ
์์ค ํจ์
๋ชจ๋ธ์ ๊ฒฐ๊ณผ๊ฐ ์ค์ ์ ๋ต๊ณผ ์ด๋ค ์ฐจ์ด๊ฐ ์๋์ง ์์นํํ ํ์๊ฐ ์๋ค. ์ด ์์นํ๋ ์ฐจ์ด๋ฅผ ํจ์ํํ ๊ฒ์
์์ค ํจ์
๋๋๋น์ฉ ํจ์
๋ผ๊ณ ํ๋ค.๋ํ์ ์ผ๋ก๋ Mean Squared Error(MSE)๋ฅผ ๋ค ์ ์๋ค.
๋จธ์ ๋ฌ๋์ ๊ตฌ๋ถ
์ง๋ ํ์ต
X๋ก Y๋ฅผ ์์ธกํ๊ณ ์ถ์ ๋ ์ฌ์ฉ
๋จธ์ ๋ฌ๋์ ํตํด ๋ง๋ ์์ธก ๋ชจ๋ธ f๋ฅผ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ ์ด๋ผ๊ณ ํ๋ค.
X๋ ๋ ๋ฆฝ ๋ณ์ ๋๋ Feature ๋ผ๊ณ ํ๋ฉฐ Y๋ ์ข ์ ๋ณ์, ๋ฐ์ ๋ณ์, ํ๊น ๋ณ์ ๋ผ๊ณ ํ๋ค.
ํ๊ท๋ฌธ์ ์ ๋ถ๋ฅ๋ฌธ์ ๊ฐ ์๋ค
๋น์ง๋ ํ์ต
์ง๋ํ์ต์ ๋ฐ๋ ๊ฐ๋
X๋ณ์๋ง ์กด์ฌํ๋ฉฐ ๋ช ํํ ์ ๋ต์ ์๋ค
๋ ๋ฆฝ ๋ณ์๋ง์ผ๋ก ์๋ก์ด Feature๋ฅผ ์ฐพ์๋ด๊ฑฐ๋ ๊ตฐ์งํ ํ์ฌ ์๋ก์ด ํจํด์ ์ฐพ์๋ด๋ ๊ฒ์ ์ด์ ์ ๋ง์ถ๋ค.
๊ตฐ์งํ, ์ฐจ์ ์ถ์๋ฒ ๋ฑ์ด ์๋ค.
๊ฐํ ํ์ต
์ํ, ํ๋, ๋ณด์, ๋ค์ ์ํ์ 4๊ฐ์ง ๊ฐ๋ ์ด ์กด์ฌ
์๋ง์ ์๋ฎฌ๋ ์ด์ ์ ํตํด ํ์ฌ ์ํ์์ ์ด๋ค ํ๋์ ์ทจํด์ผ ๋จผ ๋ฏธ๋์ ๋ณด์์ ์ต๋๋ก ํ ์ ์๋์ง ํ์ตํ๋ ์๊ณ ๋ฆฌ์ฆ
์ง๋ํ์ต ๋ชจ๋ธ์ ์ข ๋ฅ
์ ํ ํ๊ท ๋ชจ๋ธ
๋ ๋ฆฝ ๋ณ์ ํ๋๋ง์ผ๋ก ์ข ์ ๋ณ์๋ฅผ ์์ธก ํ๋ ๋ชจ๋ธ์ ๋จ์ ์ ํ ํ๊ท ๋ชจ๋ธ์ด๋ผ๊ณ ํ๋ค
๋ณ์๊ฐ ์ฌ๋ฌ ๊ฐ์ผ ๋ ์ ํฉ์ํค๋ ํ๊ท ๋ชจ๋ธ์ ๋ค์ค ์ ํ ํ๊ท ๋ชจ๋ธ์ด๋ผ๊ณ ํ๋ค.
ํ๊ท ๊ณ์ ์ถ์ ๋ชจ๋ธ
๋ณ์๊ฐ ๋๋ฌด ๋ง์ผ๋ฉด ํ์ต ๋ฐ์ดํฐ์ ๋ํ ์ฑ๋ฅ์ ๋์์ง์ง๋ง ๋นํ์ต ๋ฐ์ดํฐ์ ๋ํ ์ฑ๋ฅ์ ๋ฎ์์ง๋ค
๊ฐ๊ฐ์ ๋ณ์๊ฐ ์๋ก ์ฐ๊ด์ฑ์ด ์์ ๋ ๋ณ์์ ํด์๋ ฅ๋ ๋ฎ์์ง๋ค. (๋ณ์์ ์ํฅ๋ ฅ์ด ์๊ฐ๋ณด๋ค ์์์ง๋ค๋ ์๋ฏธ)
์ ์ ํ ๋ณ์๋ง ์ ํํด ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ๊ฒ์ด ์ค์. ์ด ๋ฌธ์ ๋ฅผ ์ํ์์ผ์ฃผ๋ ๋ฐฉ๋ฒ์ด ํ๊ท ๊ณ์ ์ถ์ ๋ชจ๋ธ
Lasso : ํ๊ท๊ณ์๊ฐ ์์ ํ 0์ด ๋๋๋ก ์ถ์์ํฌ ์ ์๋ค
Ridge : ํ๊ท๊ณ์๊ฐ 0์ผ๋ก ๊ฐ๊น์์ง๊ธด ํ์ง๋ง ์์ ํ 0์ด ๋์ง ์๋๋ค
ElasticNet : Lasso์ Ridge์ ์ค๊ฐ ๋ชจ๋ธ
์์ฌ ๊ฒฐ์ ๋๋ฌด
k-NN
๊ฐ์ฅ ๊ฐ๊น์ด k๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด ํด๋น ๋ฐ์ดํฐ์ ์ถ๋ ฅ ๊ฐ์ ์์ธกํ๋ ์ง๊ด์ ์ธ ๋ชจ๋ธ
k๋ ์ฌ์ฉ์๊ฐ ์ฌ์ ์ ์ง์ ํด์ผ ํ๋ ํ์ดํผํ๋ผ๋ฏธํฐ๋ก ๋ฐ์ดํฐ ๊ฐ ๊ฑฐ๋ฆฌ ์ธก์ ์งํ๋ k๊ฐ์ ๋ฐ์ดํฐ์ ์ ๋ณด๋ฅผ ์ข ํฉํ๋ ๋ฐฉ๋ฒ์ ์ ํํด ๋ชจ๋ธ์ ๋ณํ๋ฅผ ์ค ์ ์๋ค
์ ๊ฒฝ๋ง
๋ฅ๋ฌ๋์ ๊ธฐ์ด๊ฐ ๋๋ ๋ชจ๋ธ
ํ์ต์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ์๋ง ์๋ฒฝํ ์ ํฉ๋๋ ๊ณผ์ ํฉ ๋ฌธ์ ๋๋ฌธ์ ์ค๋ซ๋์ ๋น์ ๋ฐํํ์ง ๋ชปํ๋ค
SVM
Support Vector Machine
์ ๊ฒฝ๋ง์ ๊ณผ์ ํฉ์ ๋ํ ํด๊ฒฐ์ฒต์ ์ ์ํ ๋ชจ๋ธ
2010๋ ๋ ์ด๋ฐ๊น์ง ๋๋ฆฌ ์ฐ์์ง๋ง ๋ณ์๋ ๋ฐ์ดํฐ ์๊ฐ ๋ง์์ง์๋ก ํ์ตํ๋ ์๊ฐ์ด ๋งค์ฐ ์ค๋ ๊ฑธ๋ ค ์ฌ์ฉํ์ง ์์
Ensemble Learning
๋ค์ํ ๋ชจ๋ธ์ ๋ง๋ค์ด ์ฌ๋ฌ ๋ชจ๋ธ์ ๋ํด์ ๊ฐ์ฅ ์ข์ ์์ธก ๊ฐ์ ์ ์
๋ฐ์ดํฐ๋ฅผ ์ฌ๊ตฌ์ฑํด ๋ชจ๋ธ์ ๋ง๋๋ Bagging
๋ฐ์ดํฐ์ ๋ณ์๋ฅผ ๋๋ค์ผ๋ก ์ถ์ถํด ๋ชจ๋ธ์ ๋ง๋๋ RandomForest
์ ๋ง์ถ์ง ๋ชปํ๋ ๋ฐ์ดํฐ๋ฅผ ์ข ๋ ์ง์ค์ ์ผ๋ก ํ์ต์ํค๋ Boosting(์ผ๋ฐ์ ์ผ๋ก ๋ง์ด ์ฐ์)
์ฌ๋ฌ ๋ชจ๋ธ์ ์์ธก ๊ฐ์ ๋ค์ ๋ ๋ฆฝ ๋ณ์๋ก ํ์ฉํ๋ Stacking(์๊ฐ์ด ์ค๋ ๊ฑธ๋ ค ์ ์ฐ์ด์ง ์์)
04 ๊ณผ์ ํฉ
๊ณผ์ ํฉ์ด ๋ฐ์ํ๋ ์์ธ
๋ณธ์ง์ ์ธ ๋ฌธ์ : ์ํ ๋ฐ์ดํฐ(ํ๋ณธ)๋ง ๊ฐ์ง๊ณ ์ ์ฒด ๋ฐ์ดํฐ(๋ชจ์ง๋จ)๋ฅผ ์์ธกํ๋ ค๊ณ ํ๊ธฐ ๋๋ฌธ
ํ์ตํ ์ํ ๋ฐ์ดํฐ ์์ ๋ถ์กฑ
ํ๊ณ ์ ํ๋ ๋ฌธ์ ์ ๋นํด ๋ณต์กํ ๋ชจ๋ธ์ ์ ์ฉ
์ ํฉ์ฑ ํ๊ฐ ๋ฐ ์คํ ์ค๊ณ
๊ฐ๊ณ ์๋ ๋ฐ์ดํฐ๋ฅผ ์ ์ ํ ํ์ต ๋ฐ์ดํฐ์ ๊ฒ์ฆ ๋ฐ์ดํฐ๋ก ๋ถํ
ํ์ต ๋ฐ์ดํฐ๋ก ๋ชจ๋ธ์ ํ์ตํ ํ ๊ฒ์ฆ ๋ฐ์ดํฐ์ ๋ชจ๋ธ์ ์ ์ฉ์์ผ ๊ณผ์ ํฉ ์ฌ๋ถ๋ฅผ ํ๋จ
๋ฐ์ดํฐ ์๊ฐ ์ ์ ๋๋ ๊ฒ์ฆ๋ฐ์ดํฐ์ ํ ์คํธ ๋ฐ์ดํฐ ํ ๋น์ด ๋ถ๋ด์ค๋ฌ์ธ ์ ์๋ค. ์ด ๋๋ K-Fold Croos Validation ๊ธฐ๋ฒ์ ์ฌ์ฉํ๋ค.
๊ฐ์ง๊ณ ์๋ ๋ฐ์ดํฐ๋ฅผ K๊ฐ๋ก ๋ถํ ํด ๊ฐ ๋ฐ์ดํฐ๋ง๋ค 1๋ฒ์ ๊ฒ์ฆ, K-1๋ฒ์ ํ์ต ๋ฐ์ดํฐ๋ก ์ฌ์ฉํ์ฌ ํ๊ท ์ ์ธ ์ฑ๋ฅ์ ์ธก์ ํ๋ ๋ฐฉ๋ฒ
[AI ์ค์ฟจ 1๊ธฐ] 9์ฃผ์ฐจ DAY 5
Big Data : ML Pipeline๊ณผ Tuning ์๊ฐ
Spark MLlib ๋ชจ๋ธ ํ๋
์ต์ ์ ํ์ดํผ ํ๋ผ๋ฏธํฐ ์ ํ
๋ชจ๋ธ ๋ฐ์ ์๋ ์ธ์๋ฅผ ์๋ฏธ
ํ๋์ฉ ํ ์คํธ ํ๊ธฐ vs ๋ค์๋ฅผ ๋์์ ํ ์คํธ ํ๊ธฐ
๋ชจ๋ธ ํ ์คํธ ๋ฐฉ๋ฒ
๊ต์ฐจ ๊ฒ์ฆ
ํ๋ จ/ํ ์คํธ์ ๋๋๊ธฐ
Spark MLlib ๋ชจ๋ธ ํ ์คํธ
ํ๋ จ์ฉ๊ณผ ํ ์คํธ์ฉ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ํ ์คํธ
ํ๋์์ ํ ์คํธ๋ผ๊ณ ํ๊ธฐ๋ ํจ
80 : 20 ๋๋ 75 : 25๋ก ๋๋๋ค
๊ต์ฐจ๋ถ์ ํ ์คํธ
K-Fold ํ ์คํธ ๋ผ๊ณ ๋ถ๋ฅด๊ธฐ๋ ํจ
๋ชจ๋ธ ์ ํ์ ์ ๋ ฅ
Estimator
๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ ๋ชจ๋ธ ๋น๋ฉ ํ์ดํ๋ผ์ธ
Evaluator
Big Data : ๋ฒ์ฉ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ ํ์ผ ํฌ๋งท : PMML
๋ค์ํ ๋จธ์ ๋ฌ๋ ๊ฐ๋ฐ ํ๋ซํผ
Scikit-Learn, PyTorch, Tensorflow, Spark MLlib
ํต์ฉ๋๋ ๋จธ์ ๋ฌ๋ ํ์ผํฌ๋งท์ด ํ์
PMML, MLeap์ด ๋ํ์
๋จธ์ ๋ฌ๋ ๋ชจ๋ธ ์๋นํ๊ฒฝ์ ํต์ผ์ด ๊ฐ๋ฅ
์ค์ ๋ก๋ ์ง์ ๊ธฐ๋ฅ์ด ๋ฏธ์ฝํด์ ๋ณต์กํ ๋ชจ๋ธ์ ๊ฒฝ์ฐ์๋ ์ง์๋ถ๊ฐ
PMML
Predictive Model Markup Language
๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ๋งํฌ์ ์ธ์ด๋ก ํํํด์ฃผ๋ XML ์ธ์ด
์ ์ฐจ
ML Pipeline์ PMML ํ์ผ๋ก ์ ์ฅ
pyspark2pmml ํ์ด์ฌ ๋ชจ๋์ด ํ์
PMML ํ์ผ์๊ธฐ๋ฐ์ผ๋ก ๋ชจ๋ธ ์์ธก API๋ก ๋ก ์น
์ด API๋ก ์ ๋ณด๋ฅผ ๋ณด๋ด๊ณ ์์ธก ๊ฒฐ๊ณผ๋ฅผ ๋ฐ๋ ํด๋ผ์ด์ธํธ ์ฝ๋ ์์ฑ
Big Data : ์ด์ ๋ฆฌ
Spark
์ฐจ์ธ๋ ๋ถ์ฐ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ํ๋ ์์ํฌ
์ ๋ง ๋ฐ์ดํฐ๊ฐ ํด ๋ ์ฌ์ฉ
๋ฐ์ดํฐ ํ์ ๋ฐ์
์๋น์ค์์ ์ง์ ์๊ธฐ๋ ๋ฐ์ดํฐ์ ์จ๋ํํฐ๋ฅผ ํตํด ์๊ธฐ๋ ๋ฐ์ดํฐ๋ฅผ ๋ฐ์ดํฐ ์จ์ดํ์ฐ์ค์ ์ ์ฅ
๋ฐ์ดํฐ ๋ถ์ => ์งํ ์ ์, ์๊ฐํ
๋ฐ์ดํฐ ๊ณผํ ์ ์ฉ
Last updated
Was this helpful?