(03๊ฐ) Optimization
210810
Last updated
Was this helpful?
210810
Last updated
Was this helpful?
์ผ๋ฐํ๊ฐ ์ข๋ค๋ผ๋ ์๋ฏธ๋ ์ด ๋คํธ์ํฌ์ ์ฑ๋ฅ์ด ํ์ต ๋ฐ์ดํฐ์ ์ฑ๋ฅ๊ณผ ๋น์ทํ๋ค๋ผ๋ ์๋ฏธ์ด๋ค. Generalization Gap์ Train data error์ Test data error์ ์ฐจ์ด๋ฅผ ์๋ฏธํ๋ค.
๊ทธ๋ ๋ค๋ฉด ์ผ๋ฐํ๊ฐ ์๋๋ฉด ์ข์ ๊ฑธ๊น? ๊ผญ ๊ทธ๋ ์ง๋ง์ ์๋ค.
์ผ์ชฝ์ ๋๊ทธ๋ผ๋ฏธ์์ ๋ณด๋ฉด ์ผ๋ฐํ ๊ฐญ์ ๋งค์ฐ ๋ฎ์ง๋ง ์๋ฌ๋ ๋งค์ฐ ๋๊ธฐ ๋๋ฌธ์ด๋ค. ๋ฐ๋ผ์, ์ผ๋ฐํ๊ฐ ์๋๋ฉด์ Traing error ๊น์ง ๋ฎ์์ผ ์ข๋ค๊ณ ํ ์ ์๊ฒ ๋ค.
ํ์ต ๋ฐ์ดํฐ์ ๊ณผ๋ํ๊ฒ ํ์ต๋๋ฉด Overfitting์ด ๋ฐ์ํ๊ณ , ์ ๊ฒ ํ์ต๋๋ฉด Underfitting์ด ๋ฐ์ํ๋ค.
์ค๋ฒํผํ ์ ํผํ๋ ค๋ฉด ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ค์ด๊ณ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ๋๋ฆฌ๋ฉด ๋ ๊น? ๊ทธ๋ฌ๋ฉด ์ข์ ์๋ ์๊ฒ ์ง๋ง, ์ผ๋ฐ์ ์ผ๋ก ํ์ต ๋ฐ์ดํฐ๊ฐ ๋ง์์ผ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ์ฆ๊ฐํ๋ค. ๊ทธ๋์ ๋ฑ์ฅํ ๊ฒ์ด cross-validation
ํ์ตํ๋ ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ถ ๋ถ๋ถ์ผ๋ก ๋๋์ด์ n๊ฐ๋ก ๋ง๋ ๋ค. ๊ทธ๋ฆฌ๊ณ n๋ฒ์ ํ์ต์ ๊ฑฐ์น๋ฉด์ ๊ฐ๊ฐ์ ๋ถ๋ถ ๋ฐ์ดํฐ๊ฐ 1๋ฒ์ฉ ๊ฒ์ฆ ๋ฐ์ดํฐ๋ก, ๋๋จธ์ง๋ ํ์ต ๋ฐ์ดํฐ๋ก ์ฌ์ฉ๋๋ ๊ฒ์ด๋ค.
Varience๊ฐ ๋ฎ์ผ๋ฉด ์ถ๋ ฅ์ด ์ผ๊ด๋๋ค. ํฌ๋ฉด ์ถ๋ ฅ์ด ๋ง์ด ๋ฌ๋ผ์ง๋ค. ๊ทธ๋์ Overfitting์ด ๋ ๊ฐ๋ฅ์ฑ์ด ๋๋ค
Bias๊ฐ ๋ฎ์ผ๋ฉด ํ๊ท ๊ฐ์ ๋ง์ด ์ถ๋ ฅํ๋ค๋ ๊ฒ์ด๋ค. ๋ฐ๋๋ก ํฌ๋ฉด ํ๊ท ์์ ๋ง์ด ๋ฒ์ด๋ ๊ฐ๋ค์ ์ถ๋ ฅํ๋ค.
cost๋ฅผ ์ค์ด๋ ๊ณผ์ ์์ cost๋ varience์ bias ๊ทธ๋ฆฌ๊ณ noise๋ผ๋ 3๊ฐ์ง์ ์์๋ก ๊ตฌ์ฑ๋์ด์๋๋ฐ ์ด ์ธ ์์๋ tradeoff์ ๊ด๊ณ์ ์๋ค
cost๋ฅผ ์ค์ด๋ ๊ฒ์ bias์ variance์ noise๋ฅผ ์ค์ด๋ ๊ฒ์ธ๋ฐ, bias๋ฅผ ์ค์ด๋ฉด variance๊ฐ ๋์์ง๊ฒ ๋๊ณ noise๊ฐ ์์ผ๋ฉด bias์ variance๋ฅผ ๋์์ ์ค์ด๊ธฐ๋ ์ด๋ ต๊ฒ ๋๋ค.
๋ป์ ์ ๋ฐ๋. ์ ๋ฐ๋์ ๋ค์ด์ ํ๋์ ๋ ๊ฒ ๋ค๋ ํ๋ฌด๋งน๋ํ ์๋ฏธ. ํ ์คํธ์ ์ด ๊ณ ์ ๋์ด ์์ ๋ ์ด๋ฅผ ์ ๋ถ์ฌ์ฉํ๋ ๊ฒ์ด ์๋๋ผ ์ํ๋ง์ ํตํด ์ฌ๋ฌ ํ ์คํธํ ์ ๋ง๋ค๊ณ ๋ ์ด๋ฅผ ํตํด ์ฌ๋ฌ ๋ชจ๋ธ๊ณผ ํ๋ผ๋ฏธํฐ๋ฅผ ์์ฑํ๋ค. ์ดํ ์ด ๋ชจ๋ธ๋ค์ ๊ฒฐ๊ณผ๊ฐ ์ผ์นํ๋์ง ๋ฑ์ ๋ณด๊ณ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ์ ํ ๋ ์ฌ์ฉํ๋ค.
Bootstrapping aggregating์ ์ค๋ง. ํ ์คํธ์ ์ด ๊ณ ์ ๋์ด ์์ ๋ ์ด ํ ์คํธํ ํ๋๋ฅผ ์ ๋ถ ์ฌ์ฉํด์ ํ์ตํ๋ ๊ฒ์ด ์๋๋ผ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ฌ๋ฌ๊ฐ๋ก ๋ง๋ค์ด์ Boostrap ํ๋ ๊ฒ. ์ผ๋ฐ์ ์ผ๋ก ์์๋ธ์ด๋ผ๊ณ ๋ ๋ถ๋ฅธ๋ค.
์ค์ ๋ก๋ 100%์ ๋ฐ์ดํฐ์ ์ ๋ง๋๋ ๊ฒ๋ณด๋ค 80%์ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํด 5๊ฐ์ ๋ชจ๋ธ์ ๋ง๋ค๊ณ ํ๊ท ์ ๊ตฌํ๋ ๊ฒ์ด ์ผ๋ฐ์ ์ผ๋ก ์ฑ๋ฅ์ด ๋ ์ข๋ค.
100๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ ํ์ตํ๊ณ ์ด ์ค์ 80๊ฐ์ ๋ํด์๋ง ์ ์์ธกํ๋ค๋ฉด ์์ธกํ์ง ๋ชปํ 20๊ฐ์ ๋ฐ์ดํฐ์ ๋ํด์๋ง ํ์ตํ๋ ๋๋ฒ์งธ ๋ชจ๋ธ์ ๋ง๋ ๋ค. ์ด๋ ๊ฒ ์ฌ๋ฌ๊ฐ์ ๋ชจ๋ธ์ ๋ง๋ค์ด์ ํฉ์น๋ค. ํ๋ํ๋์ ๋ชจ๋ธ์ sequence ํ๊ฒ ์ฐ๊ฒฐํ๋ค (๋ ๋ฆฝ์ ์ผ๋ก ๋ณด๋๊ฒ์ด ์๋)
ํ๋์ ์ํ๋ก๋ง ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ฐฑ์ ํ๋ค
๋ช๊ฐ์ ์ํ๋ก ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ฐฑ์ ํ๋ค
์ ์ฒด ๋ฐ์ดํฐ๋ก ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ฐฑ์ ํ๋ค
๋จ์ํ, ํ๊ฐ๋ ๋๋ฌด ์ ๊ณ ์ ์ฒด๋ ๋๋ฌด ์ค๋๊ฑธ๋ฆฌ๋๊น ์ผ๋ถ๋ก ํ๋ฉด ๋๊ฒ ์ง ๋ผ๋ ์ด์ ๋ณด๋ค ๋ฐฐ์น์ฌ์ด์ฆ๊ฐ ๊ต์ฅํ ์ค์ํ๋ค.
๋ฐฐ์น ์ฌ์ด์ฆ๊ฐ ์์์๋ก ์คํ์ ์ผ๋ก ์ฑ๋ฅ์ด ์ข๋ค. ๋ฐฐ์น ์ฌ์ด์ฆ๊ฐ ์์์๋ก Flat Minimum์ ๋๋ฌํ๊ธฐ ์ฝ๊ณ , ๋ฐฐ์น ์ฌ์ด์ฆ๊ฐ ํด์๋ก Sharp Minimum์ ๋๋ฌํ๊ธฐ ์ฝ๋ค.
Sharp๋ ๊ฐ์ด ์กฐ๊ธ๋ง ๋ฌ๋ผ์ ธ๋ Loss๋ Accuracy๊ฐ ํฌ๊ฒ ๋ฌ๋ผ์ง๊ธฐ ๋๋ฌธ์ ๋ฐ์ดํฐ์ ์ด ๋ฌ๋ผ์ง๋ฉด ์ฑ๋ฅ์ด ์ ์๋์จ๋ค.
๋ฌธ์ ๋, ํ์ต๋ฅ ์ ์ง์ ํ๊ธฐ๊ฐ ๋๋ฌด ์ด๋ ต๋ค. ๋๋ฌด ์ปค๋, ๋๋ฌด ์์๋ ์๋๊ธฐ ๋๋ฌธ
์ด์ ์ ๊ฐ์ค์น ๊ฐฑ์ ์ ๋ณด๋ฅผ ํ์ฉํ๋ ๊ฒ์ด๋ค. ์ด ๋ gradient์ ๋ณ๋ํญ์ด ํฌ๋๋ผ๋ ์๋ ดํ๋ ์ชฝ์ผ๋ก ํ์ต์ ์ ํ๊ฒ ๋๋ค.
a๋ผ๋ ์ด์ ์ ๊ฐ์ค์น ์ ๋ณด๋งํผ ํ step ์ด๋ํ๊ณ ๊ทธ ์๋ฆฌ์์ ์๋ก ๊ฐฑ์ ๋ ๊ฐ์ค์น ๋งํผ ์ด๋ํ๋ค. ์ฆ, ๊ด์ฑ์ ์ํด์ ์ต์์ ์ ์ง๋๋๋ผ๋ ์ง๋ ์์ ์์ ์๋ก ๊ฐ์ค์น๋ฅผ ๊ตฌํด์ ๋ํ๋ฉด ๋๋ค๋ ๋ป!
๊ธฐ์กด์ ๋ชจ๋ฉํ ์ ์ต์์ ์ ์ง๋๋๋ผ๋ ๋ค์ ์ต์์ ๋ฐฉํฅ์ผ๋ก ๊ฐ์ง ๋ชปํ๊ณ ๊ด์ฑ ๋๋ฌธ์ ๋ ๋ฉ์ด์ก๋ค๊ฐ ๋ค์ ์ค๊ฒ๋๋ค. (๋ง์น ์ง์์ด๋์ฒ๋ผ) ๊ทธ๋์ ์๋ ดํ๋ ์ง์ ์ฃผ๋ณ์๋ ๋๋ฌํ์ง๋ง ์ ํํ๋ ์๋ ดํ์ง ๋ชปํ๊ฒ ๋๋ค.
NAG๋ ์ด๋ฌํ ์ต์์ ์ ๋ ๋น ๋ฅด๊ฒ ๋๋ฌํ ์ ์๊ฒ ํด์ค๋ค.
Adaptive Gradient, ๊ฐ ํ๋ผ๋ฏธํฐ์ ๋ณํ์จ์ ๋ฐ๋ผ STEP SIZE๋ฅผ ๋ค๋ฅด๊ฒ ๊ณฑํด์ค๋ค. ๊ทธ๋์ ์กฐ๊ธ ๋ณํํ ํ๋ผ๋ฏธํฐ๋ ๋ ๋ง์ด, ๋ง์ด ๋ณํํ ํ๋ผ๋ฏธํฐ๋ ๋ ์ ๊ฒ ๋ณํํ๋๋ก ํ๋ค.
์๋ํ๋ฉด, ์์ฃผ ๋ฑ์ฅํ๊ฑฐ๋ ๋ณํ๋ฅผ ๋ง์ด ํ ๋ณ์๋ค์ optimum์ ๊ฐ๊น์ด ์์ ํ๋ฅ ์ด ๋์์ ์ธ๋ฐํ๊ฒ ์ด๋ํด์ผ ํ๊ณ , ์ ๊ฒ ๋ณํํ ๋ณ์๋ค์ ๋น ๋ฅด๊ฒ optimump์ ๊ฐ๊น์์ง๊ธฐ ์ํด ๋ง์ด ์ด๋ํด์ผํ ํ๋ฅ ์ด ๋๊ธฐ ๋๋ฌธ์ ๋น ๋ฅด๊ฒ loss๋ฅผ ์ค์ด๋ ๋ฐฉํฅ์ผ๋ก ์ด๋ํ๋ ค๋ ๋ฐฉ์์ด๋ค.
G๋ ๊ฐ์ค์น๋ฅผ ์ ๊ณฑํด์ ๋ชจ๋ ๋ํ ๊ฐ์ด๋ฉฐ ์ก์ค๋ก ์ 0์ผ๋ก ๋๋ ์ง์ง ์๊ฒ ํ๊ธฐ ์ํจ์ด๋ค. ํ์ต์ ์งํํ ์๋ก G๊ฐ์๋ ์ ๊ณฑํ ๊ฐ์ด ๋ค์ด์ค๋ฏ๋ก ๊ณ์ ์ฆ๊ฐํ๊ธฐ ๋๋ฌธ์ ํ์ต์ด ๋๋ฌด ์ค๋๋๋ฉด step size๊ฐ ๋๋ฌด ์์์ ธ์ ๊ฑฐ์ ์์ง์ด์ง ์๊ฒ ๋๋ค๋ ๋ฌธ์ ์ ์ด ์๋ค.
AdaGrad์ ๋จ์ ์ ๋ณด์ํ๊ธฐ ์ํด ์ ์๋ ๋ฐฉ๋ฒ์ด๋ค.
Gt๋ exponential moving average๋ฅผ ํตํด ๊ฐ์ ๊ฐฑ์ ํ๊ฒ ๋๋ค. ๊ทธ๋ ์ง ์์ผ๋ฉด ์ด์ ์ gt๋ค์ ๋ชจ๋ ๊ธฐ์ตํ๊ณ ์์ด์ผ ํ๋๋ฐ, ์ด๋ถ๋ถ์ ๋ฆฌ์์ค ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค. ๋ฐ๋ผ์ ๊ฒฐ๊ณผ๊ฐ ๋น์ทํด์ง๋ EMA ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค.
Ht๋ ๊ฐ์ค์น์ ๋ณํ์จ์ ๋ํด์ EMA๋ฅผ ์ ์ฉํ๋ค.
๋๋, ์ Ht์ ๋ฃจํธ๊ฐ / Gt ๋ก ํ์ต๋ฅ ์ ์ ์ํ๋์ง ์ ๋ชจ๋ฅด๊ฒ ๋ค. ๋ ผ๋ฌธ์ ์ฝ์ด๋ด์ผ ํ ๊ฒ ๊ฐ๋ค.
Adadelta๋ ํ์ต๋ฅ ์ด ์๊ธฐ ๋๋ฌธ์ ๋ฐ๊ฟ ์ ์๋ ์์๊ฐ ๋ง์ด ์์ด ์ ์ฌ์ฉํ์ง ์๋๋ค.
๋ ผ๋ฌธ์ ํตํด์ ์ ์๋ ๊ฑด ์๋๊ณ , ๊ฐ์์์ ์๊ฐ๋ ๊ฒ์ด๋ค. Ht๊ฐ ๋์ ์ํ๋ผ๋ Stepsize๊ฐ ์ถ๊ฐ๋์๋ค.
EMA of GS(Gradient Squares)๋ฅผ ์ฌ์ฉํจ๊ณผ ๋์์ Momentum์ ๊ฐ์ด ํ์ฉํ๋ ๊ฒ
b1 : ๋ชจ๋ฉํ ์ ์ผ๋ง๋ ์ ์ง์ํฌ ๊ฒ์ธ๊ฐ
b2 : EMA of GS ์ ๋ณด
์ก์ค๋ก e ๊ฐ์ ์ค์ ๋ก 10^(-7) ์ด ๊ธฐ๋ณธ๊ฐ์ธ๋ฐ ์ด ๊ฐ์ ์ ์กฐ์ ํด์ฃผ๋ ๊ฒ์ด ๊ต์ฅํ ์ค์ํ๋ค
์ผ๋ฐํ๋ฅผ ์ ๋๊ฒ ํ๊ธฐ ์ํด ๊ท์ ๋ฅผ ํ๋ ๊ฒ. ํ์ต์ ๋ฐฉํดํ๋ ๊ฒ์ด ๋ชฉ์ ์ธ๋ฐ, ๋จ์ํ ๋ฐฉํด๋ผ๋ ์๋ฏธ๋ณด๋ค๋ ํ์ต ๋ฐ์ดํฐ ๋ฟ๋ง ์๋๋ผ ํ ์คํธ ๋ฐ์ดํฐ์๋ ์ ์ ์ฉ๋๋๋ก ํ๋ ๋ฐฉ๋ฒ
Validation error๊ฐ ๊ฐ์ฅ ๋ฎ์ ๋ ํ์ต์ ๋ฉ์ถ๋ ๋ฐฉ๋ฒ
Test error๋ก ํ๋ฉด ์๋๋ค.
์ผ๋ฐํ๊ฐ ์๋๋ ํจ์์ผ์๋ก ๋ถ๋๋ฌ์ด ํจ์์ผ ๊ฒ์ด๋ค๋ผ๋ ๊ฐ์ ์ผ๋ก ํํ๋ ๋ฐฉ๋ฒ์ด๋ค.
๊ฐ์ฅ ์ค์ํ ๊ฒ ์ค ํ๋๊ฐ ๋ฐ์ดํฐ์ธ๋ฐ, ๋ฐ์ดํฐ๊ฐ ๋ฌดํํ ๋ง์ผ๋ฉด ํญ์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ์ข๋ค.
๋ฐ์ดํฐ๊ฐ ์ ์ ๋๋ ์์๋ธ, ๋๋คํฌ๋ ์คํธ ๊ฐ์ ๊ธฐ๋ฒ๋ค์ ์ ์ฉํ๋ฉด ์ฑ๋ฅ์ด ์ฆ๊ฐํ์ง๋ง ๋ฐ์ดํฐ๊ฐ ๋ง์ ๋์๋ ์ ๊ฒฝ๋ง์ด ์ด๋ฌํ ๋ฐ์ดํฐ์ ํน์ง์ ์ ํํํ ์ ์๊ฒ ๋์ด ์ฑ๋ฅ์ด ์ข์๋ค.
๋ฐ๋ผ์, ๋ฐ์ดํฐ๋ฅผ ๋ผ๋ฒจ์ด ๋ฐ๋์ง ์๋ ํ๋๋ด์์ ๋ณํ์์ผ ๋ฐ์ดํฐ๋ฅผ ์ฆ๊ฐ์ํค๋ ๊ฒ.
๊ทธ๋ฌ๋ ๋ ์ด๋ธ์ด ๋ณํ๋ ๊ฐ๋ฅ์ฑ์ด ์์ผ๋ฉด ํ๋ฉด ์๋๋ค. (ex MNIST๋ 6์ 9๋ก ๋ณผ ์๋ ์๋ค)
๋ ธ์ด์ฆ๋ฅผ ์ ๊ฒฝ๋ง ์ค๊ฐ์ค๊ฐ์ ์ธํ์ด๋ ๊ฐ์ค์น์ ๋ฃ๊ฒ๋๋ฉด ์ฑ๋ฅ์ด ๋ ์ข๊ฒ ๋์จ๋ค๋ ์คํ์ ์ธ ๊ฒฐ๊ณผ
์ด๋ฏธ์ง๋ฅผ ์๋ก ์กฐํฉํ๋ ๊ธฐ๋ฒ
Mixup : ๋ ๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ๋น์จ๋ก ์๊ณ , ๋ผ๋ฒจ๋ ์์ด๋ฒ๋ฆฌ๋ ๋ฐฉ๋ฒ
Cutout : ์ด๋ฏธ์ง์ ์ผ๋ถ๋ถ์ ์ ๊ฑฐ
Cutmix : ์ด๋ฏธ์ง๋ฅผ ์์ด์ค ๋ blending ํ๋ ๊ฒ์ด ์๋๋ผ ์ผ๋ถ ์์ญ์ ์์ด์ฃผ๋ ๊ฒ
๊ฐ๊ฐ์ ๋ด๋ฐ๋ค์ด ์กฐ๊ธ ๋ robustํ feature๋ค์ ์ก๋๋ก ๋ช๊ฐ์ ๋ด๋ฐ์ ๋นํ์ฑํ ํ๋ค.
์ ๊ฒฝ๋ง์ ๊ฐ๊ฐ์ ๋ ์ด์ด๊ฐ ์ฒ๊ฐ์ ํ๋ผ๋ฏธํฐ๊ฐ ์์ ๋, ์ฒ๊ฐ์ ๊ฐ์ ๋ชจ๋ ์ ๊ทํ(ํ๊ท ์ ๋นผ์ฃผ๊ณ ๋ถ์ฐ์ผ๋ก ๋๋์ด์ค๋ค)ํด์ค๋ค. ๊ทธ๋ฌ๋ฉด์ ๋คํธ์ํฌ๊ฐ ์ ํ์ต์ด ๋๋ค
๋ง์ ๋ ผ๋ฌธ๋ค์ด ๋์ํ์ง๋ ์๋๋ค
ํ์คํ ๊ฒ์ BN์ ํ์ฉํ๋ฉด ์ฑ๋ฅ์ด ํฅ์ํ๋ค.
matplotlib 3.2์๋ ์๋ ๊ธฐ๋ฅ์ ์ธ๊ฒ์ด๋ผ์ 3.3์ผ๋ก ๋ค์ด๋ก๋ํด์ค๋ค
์ฝ๋ฉ์์๋ ๋ฐํ์์ ๋ค์ ์์ํด์ค์ผ ํ๋ค.
x์ ๋ฒ์๋ฅผ -3๋ถํฐ 3๊น์ง ์ ํด์ค๋ค. x๋ฅผ ์ง์ํจ์์ cosํจ์์ ๊ณฑ์ ๋์ ํด y๋ฅผ ์ป์ผ๋ฉด ์์ fig์ฒ๋ผ ๋๋ค.
12 -15 : ๋ชจ๋ธ์ Linear๋ฅผ ์ฌ์ฉํ๋ ์ ํ ๋ชจ๋ธ์ด๋ฉฐ activate ํจ์๋ก tanh()๋ฅผ ์ฌ์ฉํ๋ค.
๋์ผํ ๋ฐ์ดํฐ์ ๋์ผํ ๋คํธ์ํฌ๋ก ํ๋ จํ๋ค. ์ด ๋์ ์ตํฐ๋ง์ด์ ๋ค์ ์ฐจ์ด๋ฅผ ๋ณผ ๊ฒ์
permutation์ ์ฐ๋๋ฒ ๊ทธ๋ฆฌ๊ณ shuffle๊ณผ์ ์ฐจ์ด๋ฅผ ์ ์ ์๋ค
n_data ๋งํผ ๋ฐ์ดํฐ๋ฅผ ์๊ณ ์ด ์ค ๋ฐฐ์น์ฌ์ด์ฆ ๋งํผ๋ง ๊ฐ์ ธ์จ๋ค.
16-20 : ๋ชจ๋ธ์ x๋ฅผ ๋ฃ์ด forward ํ๊ณ loss๋ฅผ ์ป๋๋ค. ๊ทธ๋ฆฌ๊ณ backpropagation์ ํ์ํ ์ธ๊ฐ์ง ์์ ์ ์งํํด์ค๋ค. ๋๋จธ์ง ๋ ๋ชจ๋ธ๋ ๋์ผํ๋ค.
๊ฒฐ๊ณผ๋ก ์ ์ ์๋์
์๋ด์ด ์ ์ผ ๋น ๋ฅด๊ฒ ์๋ ดํ๋ค.
์๋ด์ 2์ฒ๋ฒ๋ง์ ๊ฑฐ์ ์๋ ดํ๋ค.
์๋ ด์ ์์ด์ ๋ชจ๋ฉํ ๊ณผ ์คํ ์ฌ์ด์ฆ๋ฅผ ๋ ๋ค ๊ณ ๋ คํ๋ ๊ฒ์ด ์ค์ํ๋ค.
๋ชจ๋ฉํ ์ด SGD๋ณด๋ค ๋น ๋ฅด๊ฒ ์๋ ดํ ์ด์ ๋ ๋ฌด์์ผ๊น?(์๋ฒฝํ ์๋ ดํ์ง๋ ๋ชปํ์ง๋ง)
์ด์ ์ gradient๋ฅผ ํ์ฉํ๊ฒ ๋ค ๋ผ๋ ๊ฒ์ด ๋ชจ๋ฉํ ๊ณผ SGD์ ์ฐจ์ด
SGD๋ ๋ฐฐ์น ๋ฐ์ดํฐ๋ง ๊ฐ์ง๊ณ ๊ทธ ๋์ ์์ฌ๊ฒฐ์ ์ ํ์ง๋ง, ๋ชจ๋ฉํ ์ ์์ฌ์จ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ ์์ฌ๊ฒฐ์ ์ ํ๋ ์ฐจ์ด์ด๋ค.
SGD๋ ํผํฌ๊ฐ ๋์ ๊ฒ๋ง ๋์ฒด๋ก ์ก๊ณ ์๋ค.
SGD๋ MSE๋ฅผ ์ฌ์ฉํ๋ค๋ณด๋ ๋ง์ด ์ด๊ธ๋๋ฉด ๊ทธ ์ชฝ์ ๋ง์ด ๋ณด์ํ๊ฒ ๋๊ณ ์ ๊ฒ ์ด๊ธ๋๋ฉด ๊ทธ๋งํผ ๋ ์ ๊ฒฝ์ฐ๊ฒ๋๋ค.
๋ง์ฝ์ outlier๊ฐ ๋ผ๋ ๊ฒฝ์ฐ๊ฐ ์๋ค๋ฉด MSE๊ฐ ์ข์ Loss ํจ์๋ ์๋๋ผ๋ ์๊ฐ์ ํ ์ ์๋ค
๋ชจ๋ธ์ด ์๋ฌด๋ฆฌ ์ฑ๋ฅ์ด ์ข๋๋ผ๋ Optimizer๋ฅผ ์ ์ ํํ์ง ๋ชปํ๋ฉด Dead Line์ ์งํค์ง ๋ชปํ ์ ์๊ธฐ ๋๋ฌธ์ ์ด ๋๊ตฌ๋ฅผ ์ ๊ณจ๋ผ์ผํ๋ค.
: ํ์ฌ ์์ ์ ๊ฐฑ์ ๋ ๊ฐ์ค์น
: ์ด์ ์ ๊ฐ์ค์น ์ ๋ณด๋ค
: ๋ชจ๋ฉํ
์ ์๋ฏธ๋ ๊ธฐ์กด์ ๊ธฐ์ธ๊ธฐ์์ ์ผ๋จ ๊ด์ฑ * ํ์ต๋ฅ ๋งํผ ๋นผ๋ผ๋ ์๋ฏธ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ์ฌ๊ธฐ์ ์ ํด๋น ์์ ์์์ ๋ฏธ๋ถ์จ์ ๊ตฌํ๋ผ๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ๊ฐฑ์ ๋ ์์น์์์ ๊ฐ์ค์น๋ฅผ ์๋ฏธํ๋ค.
12 : np.random.permutation
์ ์ฌ์ฉํ๋ค. ์ด์๋ํ ์ค๋ช
์ ์ ๋ณผ ์ ์๋ค.