27 Wed
TIL
Last updated
Was this helpful?
TIL
Last updated
Was this helpful?
ํ๊ท ์ ๊ณฑ ์ค์ฐจ
์ค์ฐจ๊ฐ ํด์๋ก e๊ฐ์ด ์ปค์ง๊ธฐ ๋๋ฌธ์ ์ ๋์ ์ฑ๋ฅ(๋ฒ์ )์ผ๋ก ํ์ฉ๋จ
ํ์ง๋ง e์ ์ ๋๊ฐ์ด ์ปค์ง ๊ฒฝ์ฐ ํ์ฑํจ์์ ๋ฏธ๋ถ๊ฐ์ด 0์ ์๋ ดํ๊ธฐ ๋๋ฌธ์ ๋ ๋ง์ ์ค๋ฅ๊ฐ ์์ด๋ ๋ ์ ์ ๊ฐฑ์ ์ด ๋ฐ์ํจ
๊ต์ฐจ ์ํธ๋กํผ
์ ๋ต์ ํด๋นํ๋ y๊ฐ ํ๋ฅ ๋ณ์
ํ๋ฅ ๋ถํฌ : P๋ ์ ๋ต, Q๋ ์ ๊ฒฝ๋ง
์ํํธ๋งฅ์ค ํจ์
์์ ๋ก๊ทธ์ฐ๋ ๋ชฉ์ ํจ์
์ ๋๋ก ๋ถ๋ฅํ์ ๋ ๋ชฉ์ ํจ์ ๊ฐ์ด ์์
์๋ชป ๋ถ๋ฅํ์ ๋ ๋ชฉ์ ํจ์๊ฐ์ด ํผ
์ํํธ๋งฅ์ค์ ๋ก๊ทธ์ฐ๋
์ํํธ๋งฅ์ค๋ ์ต๋๊ฐ์ด ์๋ ๊ฐ์ ์ต์ ํ์ฌ 0์ ๊ฐ๊น๊ฒ ๋ง๋ ๋ค๋ ์๋ ๋ดํฌ
์ ๊ฒฝ๋ง์ ์ํ ์ํ์ ์ ๋ต์ ํด๋นํ๋ ๋ ธ๋๋ง ๋ณด๊ฒ ๋ค๋ ๊ฒฝ์ฐ๋ ๋ก๊ทธ์ฐ๋์ ์ ์ด์ธ๋ฆผ
๋ฐ๋ผ์ ๋์ ๊ฒฐํฉํ์ฌ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์
๊ท๋ชจ ๋ฌธ์
๊ฑด๊ฐ์ ๊ด๋ จ๋ ๋ฐ์ดํฐ : ํค, ๋ชธ๋ฌด๊ฒ, ํ์
1.885m์ 1.525m๋ 33cm๋ ์ฐจ์ด๊ฐ ๋์ง๋ง ํน์ง ๊ฐ ์ฐจ์ด๋ ๋ถ๊ณผ 0. 38
65.5kg๊ณผ 45.0kg์ 20.5๋ผ๋ ์ฐจ์ด
๋ฐ๋ผ์ ๋ชธ๋ฌด๊ฒ์ ๋นํด ์ ์ฅ์ 100์ฌ ๋ฐฐ ๋๋ฆฌ๊ฒ ํ์ต๋จ
๋ถ๊ท ํํ๊ฒ ํ์ต๋๋ ์์ธ์ด ๋จ => ํค์ ๋ชธ๋ฌด๊ฒ์ ์์น๋ฅผ ๋น์ทํ๊ฒ ๋ง์ถฐ์ค์ผํจ
๋ชจ๋ ํน์ง์ด ์์์ธ ๊ฒฝ์ฐ์ ๋ฌธ์
์๋ ด์ด ๋๋ฆฌ๊ฒ ๋๋ ๋ฌธ์ ๋ฐ์
์ ๊ทํ๋ ๊ท๋ชจ ๋ฌธ์ ์ ์์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํด์ค
ํน์ง๋ณ ๋ ๋ฆฝ์ ์ผ๋ก ์ ์ฉ
ํต๊ณํ์ ์ ๊ท ๋ถํฌ๋ฅผ ํ์ฉํ ํ์คํ ๋ณํ์ ์ ์ฉ
์ต๋ ์ต์ ๋ณํ์ ์ ์ฉํ ๊ฒฝ์ฐ => ์์ ๊ฐ์ ํด๊ฒฐํ์ง ๋ชปํจ
๋ช ๋ชฉ ๋ณ์๋ฅผ ์ํซ์ฝ๋๋ก ๋ณํ
๋ช ๋ชฉ ๋ณ์ : ๊ฐ์ฒด๊ฐ ์๋ก ๊ตฌ๋ถํ๊ธฐ ์ํ ๋ณ์
EX) ๋จ : 1, ์ฌ : 2 ๋๋ ํ์์ธ : 1, ํ์์ธ : 2, ์์์ธ : 3, ์์์ธ : 4
๋ช ๋ชฉ ๋ณ์๋ ๊ฑฐ๋ฆฌ ๊ฐ๋ ์ด ์์
์ํซ ์ฝ๋๋ ๊ฐ์ ๊ฐ์๋งํผ ๋นํธ๋ฅผ ๋ถ์ฌ
๋์นญ์ ๊ฐ์ค์น ๋ฌธ์
์ด๊ธฐ์ (๋๋ ํ์ต์ค์) ๊ฐ์ค์น๊ฐ ๋ชจ๋ ๋์ผํ๊ฒ ์ค์ ๋๋ฉด ์ด ํ์ ๊ฐ์ค์น๊ฐ ๊ณ์์ ์ผ๋ก ๋์ผํ๊ฒ ๊ฐฑ์ ๋จ
์ ๊ฒฝ๋ง์ ๊น๊ฒ ์๋ ์ด์ ๊ฐ ์์
๋์นญ์ฑ์ ์์ ๊ธฐ => ๋์๋ก ๊ฐ์ค์น ์ด๊ธฐํ
๊ฐ์ฐ์์ ๋ถํฌ ๋๋ ๊ท ์ด ๋ถํฌ์์ ๋์ ์ถ์ถ
๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค
Saxe2014 : ๊ฐ์คํ ํ๋ ฌ์ ํ๊ณผ ์ด์ด ์์ง์ด ๋๋๋ก ์ค์
Sussilo2014 : ์์ ํ๋ก๋ฅผ ํ์ฉ
Sutskever2013 : ๊ฐ์ค์น ์ด๊ธฐํ์ ๊ฐ์๋๋ฅผ ๋์์ ์ต์ ํ
Mishkin2016 : ๊ฐ์ค์น ๋ถํฌ๊ฐ ์๋๋ผ ๋ ธ๋์ ์ถ๋ ฅ ๊ฐ ๋ถํฌ๊ฐ ์ผ์ ํ๋๋ก ๊ฐ์ ํ
๊ฒฝ์ฌ๋์ ์ก์ ํ์
๊ธฐ๊ณ ํ์ต์ ํ๋ จ์งํฉ์ ์ด์ฉํ์ฌ ๋งค๊ฐ๋ณ์์ ๊ฒฝ์ฌ๋๋ฅผ ์ถ์ ํ๋ฏ๋ก ์ก์ ๊ฐ๋ฅ์ฑ์ด ๋๋ค
stochastic gradient๋ batch ๋ฐฉ์์ผ๋ก ์๋ ดํ๊ธฐ ๋๋ฌธ์ full gradient๋ณด๋ค ํฌ๊ฒ ๊บพ์ด๋ฉด์ ์๋ ดํ๋ค.
๋ชจ๋ฉํ (๊ด์ฑ)
ํ๋ ฅ(๊ฐ์๋ ๊ด์ฑ)์ ๊ฒฝ์ฌ๋์ ๋ถ๋๋ฌ์์ ๊ฐํ์ฌ ์ก์ ํจ๊ณผ ์ค์
๊ด์ฑ : ๊ณผ๊ฑฐ์ ์ด๋ํ๋ ๋ฐฉ์์ ๊ธฐ์ตํ๋ฉด์ ๊ธฐ์กด ๋ฐฉํฅ์ผ๋ก ์ผ์ ์ด์ ์ถ๊ฐ ์ด๋ํจ => ์๋ ด ์๋ ํฅ์ (์ง์ญ ์ต์ ์ ๊ณผ ์์ฅ์ ์ ๋น ์ง๋ ๋ฌธ์ ๋ฅผ ํด์)
๊ด์ฑ์ ์ ์ฉํ ๊ฐ์ค์น ๊ฐฑ์ ์์
a(alpha)์ ํจ๊ณผ
a = 0์ด๋ฉด ๊ด์ฑ์ด ์ ์ฉ ์๋จ => ์ด์ ๊ฒฝ์ฌ๋ ๊ฐฑ์ ๊ณต์๊ณผ ๋์ผ
a๊ฐ 1์ ๊ฐ๊น์ธ์๋ก ์ด์ ๊ฒฝ์ฌ๋ ์ ๋ณด์ ํฐ ๊ฐ์ค์น๋ฅผ ์ค => ๊ทธ๋ฆฌ๋ ๊ถค์ ์ด ๋งค๋๋ฌ์
๋ณดํต 0.5, 0.9, 0.99๋ฅผ ์ฌ์ฉ
๋๋ ์ธ๋๊ฐ ์ง๋ ์๋ก 0.5์์ 0.99๊น์ง ์ฆ๊ฐ
๊ด์ฑ์ ํจ๊ณผ
์ง๋์นจ ํ์(overshooting) ๋๊ทธ๋ฌ๋จ๋ฆผ
๋ค์คํ ๋กํ ๊ฐ์ ๊ฒฝ์ฌ๋
a์๋ฆฌ์์ ๊ด์ฑ์ ๋จผ์ ๋ฐ๊ณ ์ด๋ํ ๋ค b ์์น์์ ๊ฒฝ์ฌ๋๋ฅผ ๊ตฌํด์ c๋ก ์ด๋ํ๋ค.
a์๋ฆฌ์์ ๊ด์ฑ๊ณผ ๊ฒฝ์ฌ๋๋ฅผ ๊ตฌํด์ b' ๋ก ์ด๋ํ๋ค.
๋ฉ์ถค์ ์ฉ์ดํ๋ค => ์๋ ด์ด ์๋๋ค.
ํ์ต๋ฅ p์ ์ค์์ฑ
๋๋ฌด ํฌ๋ฉด ์ง๋์นจ์ ๋ฐ๋ฅธ ์ง์ ํ์
๋๋ฌด ์์ผ๋ฉด ์๋ ด์ด ๋๋ฆผ
์ ์์ ํ์ต๋ฅ
adaptive learning rates or per-parameter learning rates
๊ธฐ์กด ๊ฒฝ์ฌ๋ ๊ฐฑ์ ์ ๋ชจ๋ ๋งค๊ฐ๋ณ์์ ๊ฐ์ ํฌ๊ธฐ์ ํ์ต๋ฅ ์ ์ฌ์ฉ
์ ์์ ํ์ต๋ฅ ์ ๋งค๊ฐ๋ณ์๋ง๋ค ์ํฉ์ ๋ฐ๋ผ ํ์ต๋ฅ ์ ์กฐ์ ํด ์ฌ์ฉ
ex) ํ์ต๋ฅ ๋ด๊ธ์ง
stimulated annealing
์ด์ ๊ฒฝ์ฌ๋๊ฐ ํ์ฌ ๊ฒฝ์ฌ๋๋ ๋ฐฉํฅ์ด ๊ฐ์ผ๋ฉด ๋งค๊ฐ๋ณ์์ ๊ฐ์ ํค์ด๋ค
๋ฐฉํฅ์ด ๋ฐ๋๋ผ๋ฉด ๊ฐ์ ์ค์ด๋ ์ ๋ต
AdaGrad
Adaptive Gradient
r = r + g (*) g
r์ด ํฌ๋ฉด ๊ฐฑ์ ๊ฐ์ด ์์์ ์กฐ๊ธ๋ง ์ด๋
r์ด ์์ผ๋ฉด ๊ฐฑ์ ๊ฐ์ด ์ปค์ ๋ง์ด ์ด๋
e๋ ๋ถ๋ชจ๊ฐ 0์ด ๋๋ ๊ฒ์ ๋ฐฉ์งํ๊ธฐ ์ํจ. ๋ณดํต 10์ -5์น์์ -7์น ๋ฒ์ ๊ฐ์ผ๋ก ์ค์
RMSProp
Adagrad์ ๋จ์
ํ์ฌ๊ฐ์ด ๋ ์ค์ํ๋ฐ ๊ณผ๊ฑฐ๊ฐ์ด ๋ฐ๋ชฉ์ ์ก์ ์ ์์
r = ar + (1-a)g(*)g
๊ณผ๊ฑฐ๊ฐ๋ ๋ณด์ง๋ง ํ์ฌ๊ฐ๋ ์ด๋ ์ ๋ ๋ณด๊ฒ ๋ค ๋ผ๋ ์
Adam
RMSProp์ ๊ด์ฑ์ ์ถ๊ฐ๋ก ์ ์ฉํ ์๊ณ ๋ฆฌ์ฆ
๊ฐฑ์ ๊ฐ