7 Sun
[ํ์ด์ฌ ๋ฅ๋ฌ๋ ํ์ดํ ์น] PART 03 Deep Learning
01 ๋ฅ๋ฌ๋์ ์ ์
๋ฅ๋ฌ๋
์๋ก์ด ๋ชจ๋ธ์ ๊ฐ๋ ์ด ์๋ ์ ๊ฒฝ๋ง์ด ๋ฐ์ ํ ๋ชจ๋ธ
์ ๊ฒฝ๋ง์ ํ์ตํ๋ ์๊ณ ๋ฆฌ์ฆ์ ํน์ฑ์ ๊ณผ์ ํฉ์ด ์ฌํ๊ฒ ์ผ์ด๋๊ณ Gradient Vanishing์ด ๋ฐ์ํ๋ค.
์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด SVM๊ณผ Ensemble Learning์ด ๋ง์ด ์ฐ์ธ๋ค.
๋ฅ๋ฌ๋์ 2๊ฐ ์ด์์ ์๋์ธต์ ์ง๋๊ณ ์๋ ๋ค์ธต ์ ๊ฒฝ๋ง
๋ฅ๋ฌ๋์ด ๋ณธ๊ฒฉ์ ์ผ๋ก ๋ฐ์ ํ๊ฒ ๋ ๊ฒ์ Graphical Representation Learning์ด๋ผ๋ ํน์ง ๋๋ฌธ
02 ๋ฅ๋ฌ๋์ด ๋ฐ์ ํ๊ฒ ๋ ๊ณ๊ธฐ
๊ณผ์ ํฉ๊ณผ Gradient Vanishing์ ์ํ์ํฌ ์ ์๋ ์๊ณ ๋ฆฌ์ฆ์ด ๋ฐ์
GPU๋ฅผ ์ ๊ฒฝ๋ง์ ์ฐ์ฐ์ ์ฌ์ฉํ ์ ์๊ฒ ๋๋ฉด์ ํ์ต ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆฌ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐ
03 ๋ฅ๋ฌ๋์ ์ข
๋ฅ
MLP
CNN : ์ด๋ฏธ์ง ๊ด๋ จ ๋ถ์ผ์์ ๋ง์ด ์ฌ์ฉ
RNN : ํ ์คํธ๊ฐ์ ์๊ณ์ด ๋ถ์ผ์ ๋ง์ด ์ฌ์ฉ
04 ๋ฅ๋ฌ๋์ ๋ฐ์ ์ ์ด๋ ์๊ณ ๋ฆฌ์ฆ - 1
Dropout
์ ๊ฒฝ๋ง์ ํ์ต ๊ณผ์ ์ค Layer์ ๋ ธ๋๋ฅผ ๋๋คํ๊ฒ Dropํจ์ผ๋ก์จ Generalization ํจ๊ณผ๋ฅผ ๊ฐ์ ธ์ค๊ฒ ํ๋ ํ ํฌ๋
์ ์ ์๊ณ ๋ฆฌ์ฆ์์ ์์ด๋์ด๋ฅผ ์ฐจ์ฉ
MNIST๋ผ๋ ์๊ธ์จ ๋ฐ์ดํฐ์ Dropout์ ์ ์ฉํ ์ ๊ฒฝ๋ง๊ณผ ์ ์ฉํ์ง ์์ ์ ๊ฒฝ๋ง์ ์ฑ๋ฅ์ ๋น๊ตํ๋ฉด Dropout์ ์ ์ฉํ ์ ๊ฒฝ๋ง์ด Test Error๊ฐ ๋ ๋ฎ๋ค.
Ensemble Learning์ Random Forest์ ๊ฐ๋ ๊ณผ ๋น์ทํ๋ค
Ensemble Learning์ ๊ธฐ๋ณธ ๊ฐ๋ ์ ๋ค์ํ ๋ชจ๋ธ
๋ค์ํ ๋ชจ๋ธ์ ๋ง๋ค๊ธฐ ์ํด ๋ฐ์ดํฐ๋ฅผ ๋๋คํ๊ฒ ๊ตฌ์ฑํ๊ณ ๋ณ์๋ ๋๋คํ๊ฒ ๊ตฌ์ฑํ ๊ฒ์ด RandomForest
Dropout์ ๋๋คํ ๋ณ์์ ๊ตฌ์ฑ์ผ๋ก ๋ณด๋ฉด ๋น์ทํ ๋ชจ๋ธ ๊ตฌ์ฑ
Activation ํจ์
ReLU
Rectified Linear Unit
์๊ทธ๋ชจ๋์ผ ํจ์์ ๊ฐ์ ๋น์ ํ ํ์ฑ ํจ์์ ๋ฌธ์ ์ ์ ์ด๋ ์ ๋ ํด๊ฒฐ => Gradient Vanishing ์ํ
f(x) = max(0, x)
์ดํ๋ก Leaky ReLU, ELU, parametric ReLU, SELU, SERLU ๋ฑ ๋ค์ํ ํ์ฑํจ์ ๋ฑ์ฅ
Batch Normalization
์ ๊ฒฝ๋ง์๋ ๊ณผ์ ํฉ๊ณผ GV ์ธ์๋ Internal Covariance shift๋ผ๋ ํ์์ด ๋ฐ์
๊ฐ ์ธต๋ง๋ค Input ๋ถํฌ๊ฐ ๋ฌ๋ผ์ง์ ๋ฐ๋ผ ํ์ต ์๋๊ฐ ๋๋ ค์ง๋ ํ์
Batch Normalization์ ์ด๋ฅผ ๋ฐฉ์ง => Input ๋ถํฌ๋ฅผ ์ ๊ทํํด ํ์ต ์๋๋ฅผ ๋น ๋ฅด๊ฒ ํจ
๋๋ ฅ์ ์ธ ๋๋ : ReLU๋ ์ ๋ ฅ๊ฐ์ด 0๋ณด๋ค ํฌ๋ฉด ํญ์ ์๊ธฐ ์์ ์ Output์ผ๋ก ์ฃผ๋๋ฐ, ์ด ๊ฐ์ ๋ฒ์๊ฐ ๋๋ฌด ๊ฐ์ง๊ฐ์์ด๋ ์ ๊ทํ๋ฅผ ํตํด ์ผ์ ๋ฒ์์์ ์๋ ๊ฐ์ผ๋ก ํต์ผํ๊ฒ ๋ค๋ผ๋ ๊ฒ ๊ฐ๋ค. ์ด ๋ ํ์ค๋ถํฌ๋ฅผ ์ฐ๋๊ฒ ์๋๋ผ, ๊ฐ ๋ ์ด์ด๋ง๋ค ์ํ ๋ฒ ํ ๊ฐ๋ง๋ฅผ......... ใ ใ
Initialization
LeCun Initialization
CNN ์ฐฝ์์์ ์ด๋ฆ์ ๋
He Initialization
Xavier Initialization์ ๋ณด์
Optimizer
SGD์ด์ธ์๋ ๋ค์ํ Optimizer ์กด์ฌ
Momentum
๋ฏธ๋ถ์ ํตํ Gradient ๋ฐฉํฅ์ผ๋ก ๊ฐ๋, ์ผ์ข ์ ๊ด์ฑ์ ์ถ๊ฐํ๋ ๊ฐ๋
์ฌ์ฉํ์ง ์์์ ๊ฒฝ์ฐ๋ณด๋ค ์ต์ ์ ์ฅ์๋ก ๋ ๋น ๋ฅด๊ฒ ์๋ ดํ๋ฉฐ ๊ฑธ์ด๊ฐ๋ ๋ณดํญ์ด ์ปค์ง ๊ฐ๋ ์ผ๋ก ์ดํด ๊ฐ๋ฅ
์ต์ ํด๊ฐ ์๋ ์ง์ญํด๋ฅผ ์ง๋์น ์๋์๋ค๋ ์ฅ์
NAG
Nesterov Accelerated Gradient
Momentum์ ์ฝ๊ฐ ๋ณํํ ๋ฐฉ๋ฒ
๋ชจ๋ฉํ ์ผ๋ก ์ด๋ํ ํ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ตฌํด ์ด๋ํ๋ ๋ฐฉ์
Adagrad
Adaptive Gradient
๊ฐ๋ณด์ง ์์ ๊ณณ์ ๋ง์ด ์์ง์ด๊ณ ๊ฐ๋ณธ ๊ณณ์ ์กฐ๊ธ์ฉ ์์ง์ด์
RMSProp
Adagrad์ ๋จ์ ์ ๋ณด์ํ ๋ฐฉ๋ฒ => ํ์ต์ด ์ค๋ ์งํ๋ ์๋ก step size๊ฐ ์์์ง๊ณ ๋ถ๋ถ์ด ๊ณ์ ์ฆ๊ฐ => G(๊ฐฑ์ ๋ ํ๋ผ๋ฏธํฐ)๊ฐ ๋ฌดํํ ์ปค์ง์ง ์๋๋ก ์ง์ ํ๊ท ์ ๋ด ๊ณ์ฐ
Adadelta
Adaptive Delta
Adagrad์ ๋จ์ ์ ๋ณด์ํ ๋ฐฉ๋ฒ
Gradient์ ์์ด ๋๋ฌด ์ ์ด์ง๋ฉด ์์ง์์ด ๋ฉ์ถ๋๋ฐ, ์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํ ๋ฐฉ๋ฒ
Adam
Adaptive Moment Estimation
๋ฅ๋ฌ๋ ๋ชจ๋ธ์์ ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉํ๋ ๊ธฐ๋ณธ์ ์ธ Optimizer
RMSProp๊ณผ Momentum ๋ฐฉ์์ ํน์ง์ ๊ฒฐํฉํ ๋ฐฉ๋ฒ
RAdam
Rectified Adam
๋๋ถ๋ถ์ Optimizer๋ ํ์ต ์ด๊ธฐ์ ์ ์ญ ์ต์ ์ ์ด ์๋ ์ง์ญ ์ต์ ์ ์ ์๋ ดํด ๋ฒ๋ฆด ์ ์๋ ๋จ์ ์ด ์๋๋ฐ ์ด๋ฅผ ๊ต์ ํ๊ธฐ ์ํ Optimizer
Last updated
Was this helpful?