27 Wed

TIL

[AI ์Šค์ฟจ 1๊ธฐ] 8์ฃผ์ฐจ DAY 3

Deep Learning: ์‹ ๊ฒฝ๋ง์˜ ๊ธฐ์ดˆ - ์‹ฌ์ธตํ•™์Šต ์ตœ์ ํ™” I

ํ‰๊ท ์ œ๊ณฑ ์˜ค์ฐจ

  • ์˜ค์ฐจ๊ฐ€ ํด์ˆ˜๋ก e๊ฐ’์ด ์ปค์ง€๊ธฐ ๋•Œ๋ฌธ์— ์ •๋Ÿ‰์  ์„ฑ๋Šฅ(๋ฒŒ์ )์œผ๋กœ ํ™œ์šฉ๋จ

  • ํ•˜์ง€๋งŒ e์˜ ์ ˆ๋Œ“๊ฐ’์ด ์ปค์งˆ ๊ฒฝ์šฐ ํ™œ์„ฑํ•จ์ˆ˜์˜ ๋ฏธ๋ถ„๊ฐ’์ด 0์— ์ˆ˜๋ ดํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋” ๋งŽ์€ ์˜ค๋ฅ˜๊ฐ€ ์žˆ์–ด๋„ ๋” ์ ์€ ๊ฐฑ์‹ ์ด ๋ฐœ์ƒํ•จ

๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ

  • ์ •๋‹ต์— ํ•ด๋‹นํ•˜๋Š” y๊ฐ€ ํ™•๋ฅ ๋ณ€์ˆ˜

  • ํ™•๋ฅ  ๋ถ„ํฌ : P๋Š” ์ •๋‹ต, Q๋Š” ์‹ ๊ฒฝ๋ง

  • e=โˆ’(ylog2o+(1โˆ’y)log2(1โˆ’o)) e = -(ylog_2 o + (1-y) log_2(1-o))

์†Œํ”„ํŠธ๋งฅ์Šค ํ•จ์ˆ˜

์Œ์˜ ๋กœ๊ทธ์šฐ๋„ ๋ชฉ์ ํ•จ์ˆ˜

  • e=โˆ’log2oy e = -log_2 o_y

  • ์ œ๋Œ€๋กœ ๋ถ„๋ฅ˜ํ–ˆ์„ ๋•Œ ๋ชฉ์ ํ•จ์ˆ˜ ๊ฐ’์ด ์ž‘์Œ

  • ์ž˜๋ชป ๋ถ„๋ฅ˜ํ–ˆ์„ ๋•Œ ๋ชฉ์ ํ•จ์ˆ˜๊ฐ’์ด ํผ

์†Œํ”„ํŠธ๋งฅ์Šค์™€ ๋กœ๊ทธ์šฐ๋„

  • ์†Œํ”„ํŠธ๋งฅ์Šค๋Š” ์ตœ๋Œ“๊ฐ’์ด ์•„๋‹Œ ๊ฐ’์„ ์–ต์ œํ•˜์—ฌ 0์— ๊ฐ€๊น๊ฒŒ ๋งŒ๋“ ๋‹ค๋Š” ์˜๋„ ๋‚ดํฌ

  • ์‹ ๊ฒฝ๋ง์— ์˜ํ•œ ์ƒ˜ํ”Œ์˜ ์ •๋‹ต์— ํ•ด๋‹นํ•˜๋Š” ๋…ธ๋“œ๋งŒ ๋ณด๊ฒ ๋‹ค๋Š” ๊ฒฝ์šฐ๋Š” ๋กœ๊ทธ์šฐ๋„์™€ ์ž˜ ์–ด์šธ๋ฆผ

  • ๋”ฐ๋ผ์„œ ๋‘˜์„ ๊ฒฐํ•ฉํ•˜์—ฌ ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์Œ

Deep Learning: ์‹ ๊ฒฝ๋ง์˜ ๊ธฐ์ดˆ - ์‹ฌ์ธตํ•™์Šต ์ตœ์ ํ™” II

๊ทœ๋ชจ ๋ฌธ์ œ

  • ๊ฑด๊ฐ•์— ๊ด€๋ จ๋œ ๋ฐ์ดํ„ฐ : ํ‚ค, ๋ชธ๋ฌด๊ฒŒ, ํ˜ˆ์••

  • 1.885m์™€ 1.525m๋Š” 33cm๋‚˜ ์ฐจ์ด๊ฐ€ ๋‚˜์ง€๋งŒ ํŠน์ง• ๊ฐ’ ์ฐจ์ด๋Š” ๋ถˆ๊ณผ 0. 38

  • 65.5kg๊ณผ 45.0kg์€ 20.5๋ผ๋Š” ์ฐจ์ด

  • ๋”ฐ๋ผ์„œ ๋ชธ๋ฌด๊ฒŒ์— ๋น„ํ•ด ์‹ ์žฅ์€ 100์—ฌ ๋ฐฐ ๋А๋ฆฌ๊ฒŒ ํ•™์Šต๋จ

  • ๋ถˆ๊ท ํ˜•ํ•˜๊ฒŒ ํ•™์Šต๋˜๋Š” ์›์ธ์ด ๋จ => ํ‚ค์™€ ๋ชธ๋ฌด๊ฒŒ์˜ ์ˆ˜์น˜๋ฅผ ๋น„์Šทํ•˜๊ฒŒ ๋งž์ถฐ์ค˜์•ผํ•จ

๋ชจ๋“  ํŠน์ง•์ด ์–‘์ˆ˜์ธ ๊ฒฝ์šฐ์˜ ๋ฌธ์ œ

  • ์ˆ˜๋ ด์ด ๋А๋ฆฌ๊ฒŒ ๋˜๋Š” ๋ฌธ์ œ ๋ฐœ์ƒ

์ •๊ทœํ™”๋Š” ๊ทœ๋ชจ ๋ฌธ์ œ์™€ ์–‘์ˆ˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•ด์คŒ

  • ํŠน์ง•๋ณ„ ๋…๋ฆฝ์ ์œผ๋กœ ์ ์šฉ

  • ํ†ต๊ณ„ํ•™์˜ ์ •๊ทœ ๋ถ„ํฌ๋ฅผ ํ™œ์šฉํ•œ ํ‘œ์ค€ํ™” ๋ณ€ํ™˜์„ ์ ์šฉ

  • ์ตœ๋Œ€ ์ตœ์†Œ ๋ณ€ํ™˜์„ ์ ์šฉํ•œ ๊ฒฝ์šฐ => ์–‘์˜ ๊ฐ’์„ ํ•ด๊ฒฐํ•˜์ง€ ๋ชปํ•จ

๋ช…๋ชฉ ๋ณ€์ˆ˜๋ฅผ ์›ํ•ซ์ฝ”๋“œ๋กœ ๋ณ€ํ™˜

  • ๋ช…๋ชฉ ๋ณ€์ˆ˜ : ๊ฐ์ฒด๊ฐ„ ์„œ๋กœ ๊ตฌ๋ถ„ํ•˜๊ธฐ ์œ„ํ•œ ๋ณ€์ˆ˜

    • EX) ๋‚จ : 1, ์—ฌ : 2 ๋˜๋Š” ํƒœ์–‘์ธ : 1, ํƒœ์Œ์ธ : 2, ์†Œ์–‘์ธ : 3, ์†Œ์Œ์ธ : 4

    • ๋ช…๋ชฉ ๋ณ€์ˆ˜๋Š” ๊ฑฐ๋ฆฌ ๊ฐœ๋…์ด ์—†์Œ

    • ์›ํ•ซ ์ฝ”๋“œ๋Š” ๊ฐ’์˜ ๊ฐœ์ˆ˜๋งŒํผ ๋น„ํŠธ๋ฅผ ๋ถ€์—ฌ

๋Œ€์นญ์  ๊ฐ€์ค‘์น˜ ๋ฌธ์ œ

  • ์ดˆ๊ธฐ์— (๋˜๋Š” ํ•™์Šต์ค‘์—) ๊ฐ€์ค‘์น˜๊ฐ€ ๋ชจ๋‘ ๋™์ผํ•˜๊ฒŒ ์„ค์ •๋˜๋ฉด ์ด ํ›„์— ๊ฐ€์ค‘์น˜๊ฐ€ ๊ณ„์†์ ์œผ๋กœ ๋™์ผํ•˜๊ฒŒ ๊ฐฑ์‹ ๋จ

  • ์‹ ๊ฒฝ๋ง์„ ๊นŠ๊ฒŒ ์Œ“๋Š” ์ด์œ ๊ฐ€ ์—†์Œ

  • ๋Œ€์นญ์„ฑ์„ ์—†์• ๊ธฐ => ๋‚œ์ˆ˜๋กœ ๊ฐ€์ค‘์น˜ ์ดˆ๊ธฐํ™”

    • ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ ๋˜๋Š” ๊ท ์—ด ๋ถ„ํฌ์—์„œ ๋‚œ์ˆ˜ ์ถ”์ถœ

๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋“ค

  • Saxe2014 : ๊ฐ€์ค‘ํžˆ ํ–‰๋ ฌ์˜ ํ–‰๊ณผ ์—ด์ด ์ˆ˜์ง์ด ๋˜๋„๋ก ์„ค์ •

  • Sussilo2014 : ์ž„์˜ ํ–‰๋กœ๋ฅผ ํ™œ์šฉ

  • Sutskever2013 : ๊ฐ€์ค‘์น˜ ์ดˆ๊ธฐํ™”์™€ ๊ฐ€์†๋„๋ฅผ ๋™์‹œ์— ์ตœ์ ํ™”

  • Mishkin2016 : ๊ฐ€์ค‘์น˜ ๋ถ„ํฌ๊ฐ€ ์•„๋‹ˆ๋ผ ๋…ธ๋“œ์˜ ์ถœ๋ ฅ ๊ฐ’ ๋ถ„ํฌ๊ฐ€ ์ผ์ •ํ•˜๋„๋ก ๊ฐ•์ œํ™”

๊ฒฝ์‚ฌ๋„์˜ ์žก์Œ ํ˜„์ƒ

  • ๊ธฐ๊ณ„ ํ•™์Šต์€ ํ›ˆ๋ จ์ง‘ํ•ฉ์„ ์ด์šฉํ•˜์—ฌ ๋งค๊ฐœ๋ณ€์ˆ˜์˜ ๊ฒฝ์‚ฌ๋„๋ฅผ ์ถ”์ •ํ•˜๋ฏ€๋กœ ์žก์Œ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค

  • stochastic gradient๋Š” batch ๋ฐฉ์‹์œผ๋กœ ์ˆ˜๋ ดํ•˜๊ธฐ ๋•Œ๋ฌธ์— full gradient๋ณด๋‹ค ํฌ๊ฒŒ ๊บพ์ด๋ฉด์„œ ์ˆ˜๋ ดํ•œ๋‹ค.

๋ชจ๋ฉ˜ํ…€(๊ด€์„ฑ)

  • ํƒ„๋ ฅ(๊ฐ€์†๋„ ๊ด€์„ฑ)์€ ๊ฒฝ์‚ฌ๋„์— ๋ถ€๋“œ๋Ÿฌ์›€์„ ๊ฐ€ํ•˜์—ฌ ์žก์Œ ํšจ๊ณผ ์ค„์ž„

    • ๊ด€์„ฑ : ๊ณผ๊ฑฐ์— ์ด๋™ํ–ˆ๋˜ ๋ฐฉ์‹์„ ๊ธฐ์–ตํ•˜๋ฉด์„œ ๊ธฐ์กด ๋ฐฉํ–ฅ์œผ๋กœ ์ผ์ • ์ด์ƒ ์ถ”๊ฐ€ ์ด๋™ํ•จ => ์ˆ˜๋ ด ์†๋„ ํ–ฅ์ƒ (์ง€์—ญ ์ตœ์ €์ ๊ณผ ์•ˆ์žฅ์ ์— ๋น ์ง€๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด์†Œ)

  • ๊ด€์„ฑ์„ ์ ์šฉํ•œ ๊ฐ€์ค‘์น˜ ๊ฐฑ์‹  ์ˆ˜์‹

  • a(alpha)์˜ ํšจ๊ณผ

    • a = 0์ด๋ฉด ๊ด€์„ฑ์ด ์ ์šฉ ์•ˆ๋จ => ์ด์ „ ๊ฒฝ์‚ฌ๋„ ๊ฐฑ์‹  ๊ณต์‹๊ณผ ๋™์ผ

    • a๊ฐ€ 1์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก ์ด์ „ ๊ฒฝ์‚ฌ๋„ ์ •๋ณด์— ํฐ ๊ฐ€์ค‘์น˜๋ฅผ ์คŒ => ๊ทธ๋ฆฌ๋Š” ๊ถค์ ์ด ๋งค๋„๋Ÿฌ์›€

    • ๋ณดํ†ต 0.5, 0.9, 0.99๋ฅผ ์‚ฌ์šฉ

    • ๋˜๋Š” ์„ธ๋Œ€๊ฐ€ ์ง€๋‚  ์ˆ˜๋ก 0.5์—์„œ 0.99๊นŒ์ง€ ์ฆ๊ฐ€

  • ๊ด€์„ฑ์˜ ํšจ๊ณผ

    • ์ง€๋‚˜์นจ ํ˜„์ƒ(overshooting) ๋ˆ„๊ทธ๋Ÿฌ๋œจ๋ฆผ

  • ๋„ค์Šคํ…Œ๋กœํ”„ ๊ฐ€์† ๊ฒฝ์‚ฌ๋„

    • a์ž๋ฆฌ์—์„œ ๊ด€์„ฑ์„ ๋จผ์ € ๋ฐ›๊ณ  ์ด๋™ํ•œ ๋’ค b ์œ„์น˜์—์„œ ๊ฒฝ์‚ฌ๋„๋ฅผ ๊ตฌํ•ด์„œ c๋กœ ์ด๋™ํ•œ๋‹ค.

    • a์ž๋ฆฌ์—์„œ ๊ด€์„ฑ๊ณผ ๊ฒฝ์‚ฌ๋„๋ฅผ ๊ตฌํ•ด์„œ b' ๋กœ ์ด๋™ํ•œ๋‹ค.

    • ๋ฉˆ์ถค์— ์šฉ์ดํ•˜๋‹ค => ์ˆ˜๋ ด์ด ์ž˜๋œ๋‹ค.

ํ•™์Šต๋ฅ  p์˜ ์ค‘์š”์„ฑ

  • ๋„ˆ๋ฌด ํฌ๋ฉด ์ง€๋‚˜์นจ์— ๋”ฐ๋ฅธ ์ง„์ž ํ˜„์ƒ

  • ๋„ˆ๋ฌด ์ž‘์œผ๋ฉด ์ˆ˜๋ ด์ด ๋А๋ฆผ

์ ์‘์  ํ•™์Šต๋ฅ 

  • adaptive learning rates or per-parameter learning rates

  • ๊ธฐ์กด ๊ฒฝ์‚ฌ๋„ ๊ฐฑ์‹ ์€ ๋ชจ๋“  ๋งค๊ฐœ๋ณ€์ˆ˜์— ๊ฐ™์€ ํฌ๊ธฐ์˜ ํ•™์Šต๋ฅ ์„ ์‚ฌ์šฉ

  • ์ ์‘์  ํ•™์Šต๋ฅ ์€ ๋งค๊ฐœ๋ณ€์ˆ˜๋งˆ๋‹ค ์ƒํ™ฉ์— ๋”ฐ๋ผ ํ•™์Šต๋ฅ ์„ ์กฐ์ ˆํ•ด ์‚ฌ์šฉ

    • ex) ํ•™์Šต๋ฅ  ๋‹ด๊ธˆ์งˆ

      • stimulated annealing

      • ์ด์ „ ๊ฒฝ์‚ฌ๋„๊ฐ€ ํ˜„์žฌ ๊ฒฝ์‚ฌ๋„๋ž‘ ๋ฐฉํ–ฅ์ด ๊ฐ™์œผ๋ฉด ๋งค๊ฐœ๋ณ€์ˆ˜์˜ ๊ฐ’์„ ํ‚ค์šด๋‹ค

      • ๋ฐฉํ–ฅ์ด ๋ฐ˜๋Œ€๋ผ๋ฉด ๊ฐ’์„ ์ค„์ด๋Š” ์ „๋žต

  • AdaGrad

    • Adaptive Gradient

    • r = r + g (*) g

    • ๊ฐฑ์‹ ๊ฐ’ ฮธ=โˆ’pe+rโ‹…g \theta = - {p \over e + \sqrt r } \cdot g

    • r์ด ํฌ๋ฉด ๊ฐฑ์‹ ๊ฐ’์ด ์ž‘์•„์„œ ์กฐ๊ธˆ๋งŒ ์ด๋™

    • r์ด ์ž‘์œผ๋ฉด ๊ฐฑ์‹ ๊ฐ’์ด ์ปค์„œ ๋งŽ์ด ์ด๋™

    • e๋Š” ๋ถ„๋ชจ๊ฐ€ 0์ด ๋˜๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•จ. ๋ณดํ†ต 10์˜ -5์Šน์—์„œ -7์Šน ๋ฒ”์œ„ ๊ฐ’์œผ๋กœ ์„ค์ •

  • RMSProp

    • Adagrad์˜ ๋‹จ์ 

      • ํ˜„์žฌ๊ฐ’์ด ๋” ์ค‘์š”ํ•œ๋ฐ ๊ณผ๊ฑฐ๊ฐ’์ด ๋ฐœ๋ชฉ์„ ์žก์„ ์ˆ˜ ์žˆ์Œ

    • r = ar + (1-a)g(*)g

    • ๊ณผ๊ฑฐ๊ฐ’๋„ ๋ณด์ง€๋งŒ ํ˜„์žฌ๊ฐ’๋„ ์–ด๋А ์ •๋„ ๋ณด๊ฒ ๋‹ค ๋ผ๋Š” ์ 

  • Adam

    • RMSProp์— ๊ด€์„ฑ์„ ์ถ”๊ฐ€๋กœ ์ ์šฉํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜

Last updated

Was this helpful?