(08๊ฐ•) Transformer (2)

210913

2. Transformer(cont'd)

cont'd ๋Š” continued์˜ ์•ฝ์ž์ด๋‹ค. ์ด์ „๊ณผ ์ด์–ด์ง„๋‹ค๋Š” ์˜๋ฏธ

Multi-Head Attention

single attention ๋ฐฉ์‹์„ ๋ณ‘๋ ฌ์ ์œผ๋กœ ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ๋ฐฉ๋ฒ•์€ ๋˜‘๊ฐ™์œผ๋ฉฐ ๋‚ด๋ถ€ ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ ๋‹ค๋ฅด๊ธฐ ๋•Œ๋ฌธ์— ์—ฌ๋Ÿฌ ๊ฐ€์ง€ output์ด ๋‚˜์˜จ๋‹ค. ๋ฐฉ๋ฒ•๋ก ์ ์œผ๋กœ๋Š” ์•™์ƒ๋ธ”์˜ ๋А๋‚Œ์œผ๋กœ๋„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ์ตœ์ข… output์€ concatํ•˜๊ฒŒ๋œ๋‹ค.

์™œ ํ•˜๋Š”๊ฑธ๊นŒ? ๋‹จ์ˆœํžˆ ๋ชจ๋ธ์„ ์—ฌ๋Ÿฌ๊ฐ€์ง€ ๋ฐฉ๋ฒ•์œผ๋กœ ์กฐ์ž‘ํ•˜๋ฉด์„œ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด์„œ? ๋„ ๋งž๋Š” ๋ง์ด์ง€๋งŒ ์ด๋ฅผ ์ข€ ๋” ์ž์„ธํ•˜๊ฒŒ ์ด์•ผ๊ธฐ ํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ฐ ์‹œํ€€์Šค๋งˆ๋‹ค ๋ณ‘๋ ฌ์ ์œผ๋กœ ์„œ๋กœ ๋‹ค๋ฅธ ์ •๋ณด๋ฅผ ์–ป์–ด์„œ ํ•ด๋‹น ์‹œํ€€์Šค์— ๋Œ€ํ•ด ํ’๋ถ€ํ•œ ์ •๋ณด๋ฅผ ๊ฐ€์ง€๊ณ  output์„ ๋‚ด๊ธฐ์œ„ํ•จ์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

๋งŒ์•ฝ 8๋ฒˆ์˜ attention์„ ์‹คํ–‰ํ–ˆ๋‹ค๋ฉด ๊ฐ๊ฐ์˜ ๊ฒฐ๊ณผ๋ฅผ concatํ•˜๋ฏ€๋กœ ๊ฐ€๋กœ๋กœ ๋งค์šฐ ๊ธธ์–ด์ง„ ์ตœ์ข… output์„ ์–ป๊ฒŒ๋œ๋‹ค.

์—ฌ๊ธฐ์—, ์„ ํ˜• layer๋ฅผ ์ ์šฉํ•ด์„œ ์–ด๋–ค W์™€์˜ ๊ณฑ์„ ํ†ตํ•ด ์ตœ์ข…์ ์œผ๋กœ Z ๋ฒกํ„ฐ๋ฅผ ์–ป๊ฒŒ๋œ๋‹ค.

Multi head Attention์—์„œ์˜ ๊ณ„์‚ฐ๋Ÿ‰์„ ์•Œ์•„๋ณด์ž.

Complexity per Layer

Self-Attention์€ RNN ๋ณด๋‹ค ํ›จ์”ฌ ๋งŽ์€ ์—ฐ์‚ฐ๋Ÿ‰๊ณผ ๋ฉ”๋ชจ๋ฆฌ๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค.

  • d๋Š” ํ•˜์ดํผ ํŒŒ๋ผ๋ฏธํ„ฐ๋ผ์„œ ์กฐ์ ˆํ•  ์ˆ˜ ์žˆ๋Š”๋ฐ ๋น„ํ•ด n์€ ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ์— ๋”ฐ๋ผ ๊ฒฐ์ •๋˜๋Š” ๋ถ€๋ถ„์ด๋ผ์„œ ๋ฐ์ดํ„ฐ๊ฐ€ ํฌ๋ฉด ํด์ˆ˜๋ก ๋งŽ์€ ์—ฐ์‚ฐ๋Ÿ‰์„ ํ•„์š”๋กœ ํ•œ๋‹ค.

Sequential Operations

Self-Attention์€ ๋ณ‘๋ ฌ์ ์œผ๋กœ ์ด๋ฅผ ์ฒ˜๋ฆฌํ•˜๋ฉด ํ•œ๋ฒˆ์— ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, RNN์€ ์ด์ „ step์ด ๋๋‚˜์•ผ ๋‹ค์Œ step์„ ์ง„ํ–‰ํ•  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ๋ณ‘๋ ฌํ™”ํ•  ์ˆ˜ ์—†๋‹ค. ๊ทธ๋ž˜์„œ RNN์€ Forward & Backward Propagation์€ sequence์˜ ๊ธธ์ด๋งŒํผ ์‹œ๊ฐ„์ด ์†Œ์š”๋œ๋‹ค.

  • ์‹ค์ œ๋กœ ์ž…๋ ฅ์€ ํ•œ๋ฒˆ์— ์ฃผ์–ด์ง€๋ฏ€๋กœ ํ•œ๊บผ๋ฒˆ์— ์ฒ˜๋ฆฌ๋˜๋Š” ๋“ฏ์ด ๋ณด์ด์ง€๋งŒ ์œ„์™€ ๊ฐ™์€ ์ด์œ ๋•Œ๋ฌธ์— ์ ˆ๋Œ€ ๋ณ‘๋ ฌํ™”๊ฐ€ ์ด๋ฃจ์–ด์งˆ ์ˆ˜ ์—†๋‹ค.

์ •๋ฆฌํ•˜๋ฉด, RNN์€ ์—ฐ์‚ฐ๋Ÿ‰์ด ์ž‘์ง€๋งŒ ์†๋„๋Š” ๋А๋ฆฌ๊ณ , Self-Attention์€ ์—ฐ์‚ฐ๋Ÿ‰์ด ํฐ๋Œ€์‹  ์†๋„๋Š” ๋น ๋ฅด๋‹ค.

Maximum Path Length

Long Term Dependency์™€ ๊ด€๋ จ์ด ์žˆ๋Š” ๋ถ€๋ถ„์ด๋‹ค.

RNN์—์„œ๋Š” ๋งˆ์ง€๋ง‰ step์—์„œ ์ฒซ๋ฒˆ์งธ ๋‹จ์–ด์˜ ์ •๋ณด๋ฅผ ์–ป๊ธฐ์œ„ํ•ด n๊ฐœ์˜ ๋ ˆ์ด์–ด๋ฅผ ์ง€๋‚˜์™€์•ผ ํ•˜์ง€๋งŒ, T.F ์—์„œ๋Š” time step ๊ณผ ๊ด€๋ จ์—†์ด attention์„ ์ด์šฉํ•ด ์ง์ ‘์ ์œผ๋กœ ์ •๋ณด๋ฅผ ๊ฐ€์ ธ์˜ฌ ์ˆ˜ ์žˆ๋‹ค.

Block-Based Model

  • ์•„๋ž˜์—์„œ ๋ถ€ํ„ฐ ์„ธ ๊ฐˆ๋ž˜๋กœ ๋‚˜๋ˆ„์–ด์ง€๋Š”๋ฐ ๋ชจ๋‘ K, Q, V ๋ฅผ ์˜๋ฏธํ•œ๋‹ค. ์ด๋“ค์€ ๊ฐœ๋ณ„์ ์ธ head attention์—์„œ ๊ฐ๊ฐ์˜ Wk, Wq, Wv๋ฅผ ์–ป๊ฒŒ๋˜๋ฉฐ ์ด๋ฅผ ๋ชจ๋‘ concatํ•ด์„œ output์„ ๋ฐ˜ํ™˜ํ•œ๋‹ค.

์—ฌ๊ธฐ์„œ ์ฒ˜์Œ๋ณด๋Š” ๋ถ€๋ถ„์ด ์žˆ๋‹ค. ๋ฐ”๋กœ Add & Norm

  • Residual ์—ฐ์‚ฐ์ธ Add๊ฐ€ ์ˆ˜ํ–‰๋˜๊ณ  Layer Normalization์ด ์ˆ˜ํ–‰๋œ๋‹ค.

  • ์ดํ›„, Feed Forward๋ฅผ ํ†ต๊ณผํ•˜๊ณ  ๋˜ ์ˆ˜ํ–‰์ด ๋œ๋‹ค.

Add

  • ๊นŠ์€ ๋ ˆ์ด์–ด์—์„œ Gradient Vanishing ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ  ํ•™์Šต์„ ์•ˆ์ •ํ™”ํ•˜์—ฌ ๋” ๋†’์€ ์„ฑ๋Šฅ์„ ๋‚ด๊ฒŒํ•˜๋Š” ๊ธฐ์ˆ ์ด๋‹ค.

  • ๋งŒ์•ฝ "I study math" ๋ผ๋Š” ๋ฌธ์žฅ์—์„œ "I" ์— ํ•ด๋‹นํ•˜๋Š” ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ๊ฐ€ [1, -4] ์ด๊ณ  head attention์„ ํ†ต๊ณผํ•œ ์ธ์ฝ”๋”ฉ ๋ฒกํ„ฐ๊ฐ€ [2, 3] ์ด๋ผ๊ณ  ํ•˜์ž. ์ด ๋•Œ add๋ฅผ ์ ์šฉํ•˜๋ฉด ๋‘ ๋ฒกํ„ฐ๋ฅผ ๋”ํ•ด์„œ [3, -1] ์„ ์–ป๊ฒŒ๋˜๊ณ  ์ด๋ฅผ "I"์˜ ์ตœ์ข… ์ธ์ฝ”๋”ฉ ๋ฒกํ„ฐ๋กœ ๊ฒฐ์ •ํ•œ๋‹ค.

๋ช‡ ๊ฐ€์ง€ Normalization์ด ์กด์žฌํ•˜๋Š”๋ฐ ์ด์ค‘์—์„œ Batch Norm๊ณผ Layer Norm ์•Œ์•„๋ณด์ž.

Batch Normalization

  • ๊ฐ ๋ฐฐ์น˜์˜ ๊ฐ’์˜ ํ‰๊ท ๊ณผ ํ‘œ์ค€ํŽธ์ฐจ๋ฅผ ๊ตฌํ•˜๊ณ  ์ด๋ฅผ ์ด์šฉํ•ด ๊ฐ ๋ฐฐ์น˜๋ฅผ ํ‰๊ท ์ด 0์ด๊ณ  ํ‘œ์ค€ํŽธ์ฐจ๊ฐ€ 1์ธ ์ •๊ทœ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด๋„๋ก ์ •๊ทœํ™”ํ•ด์ค€๋‹ค.

  • ์ดํ›„ Affine Transformation์„ ์ ์šฉํ•ด์„œ ์›ํ•˜๋Š” ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์œผ๋กœ ๋งž์ถฐ์ค€๋‹ค.

Layer Normalization

  • Batch Norm. ์€ ํ•œ batch์— ๋Œ€ํ•ด์„œ(=๊ฐ€๋กœ๋กœ) ์ •๊ทœํ™”ํ–ˆ๋‹ค๋ฉด Layer Norm.์€ ํ•œ Feature์— ๋Œ€ํ•ด์„œ(=์„ธ๋กœ๋กœ) ์ •๊ทœํ™”ํ•œ๋‹ค.

Positional Encoding

๋งŒ์•ฝ์— ์šฐ๋ฆฌ๊ฐ€ ์ง€๊ธˆ๊นŒ์ง€ ๋ณธ ๋ชจ๋ธ์—์„œ "I love you" ์™€ "love I you"๋ฅผ ์ž…๋ ฅํ–ˆ์„ ๋•Œ์˜ ๊ฒฐ๊ณผ๋Š” ํ•ญ์ƒ ๋˜‘๊ฐ™์„ ๊ฒƒ์ด๋‹ค. ์™œ๋ƒํ•˜๋ฉด Transformer๋Š” time step์„ ๊ณ ๋ คํ•˜์ง€ ์•Š๊ณ  ์ž…๋ ฅ์— ๋Œ€ํ•ด ํ•œ๋ฒˆ์— ์ฒ˜๋ฆฌํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ˆœ์„œ๋ฅผ ๊ณ ๋ คํ•˜์ง€ ์•Š๊ณ  ์ฒ˜๋ฆฌํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

์ˆœ์„œ๋ฅผ ๊ณ ๋ คํ•ด์ฃผ๋Š” ๋ฐฉ๋ฒ•์ด ํ•„์š”ํ•˜๋‹ค. ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์˜ˆ๋ฅผ ๋“ค์–ด๋ณด์ž.

"I Study math" ์—์„œ "I"์˜ ์ธ์ฝ”๋”ฉ ๋ฒกํ„ฐ๊ฐ€ [3, -2, 4] ๋ผ๊ณ  ํ•˜์ž. ๊ทธ๋Ÿฌ๋ฉด I๋Š” ์ฒซ๋ฒˆ์งธ ์ˆœ์„œ์— ๋‚˜์™”์œผ๋ฏ€๋กœ ๋ฒกํ„ฐ์˜ ์ฒซ๋ฒˆ์งธ ๊ฐ’์— ์ƒ์ˆ˜ 1000์„ ๋”ํ•ด์„œ [1003, -2, 4] ๋กœ ๋งŒ๋“ค์–ด์ฃผ๋Š” ๋ฐฉ๋ฒ•์ด Positional Encoding์˜ ์•„์ด๋””์–ด์ด๋‹ค.

  • ์ˆœ์„œ์— ๋”ฐ๋ผ ๋ฒกํ„ฐ๊ฐ€ ๋‹ค๋ฅธ ๊ฐ’์„ ๊ฐ€์ง€๊ฒŒ ๋œ๋‹ค.

  • ์—ฌ๊ธฐ์„œ๋Š” ๊ฐ„๋‹จํ•˜๊ฒŒ 1000์„ ๋”ํ•ด์คฌ์ง€๋งŒ ์‹ค์ œ๋กœ๋Š” ๊ฐ„๋‹จํ•˜๊ฒŒ ์ด๋ฃจ์–ด์ง€๋Š” ๋ถ€๋ถ„์€ ์•„๋‹ˆ๋‹ค.

์œ„์น˜์— ๋”ฐ๋ผ ๊ตฌ๋ณ„ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฒกํ„ฐ๋ฅผ sin๊ณผ cosํ•จ์ˆ˜๋กœ ์ด๋ฃจ์–ด์ง„ ์ฃผ๊ธฐํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•ด์„œ ๊ฒฐ์ •ํ•œ๋‹ค.

dimension ๊ฐœ์ˆ˜๋งŒํผ ์„œ๋กœ ๋‹ค๋ฅธ ๊ทธ๋ž˜ํ”„๊ฐ€ ์กด์žฌํ•˜๋ฉฐ ๊ฐ sequence์˜ ์ธ๋ฑ์Šค๋ฅผ x๊ฐ’์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

์œ„ ๊ทธ๋ž˜ํ”„์—์„œ๋Š” ๊ฐ€๋กœ์ถ•์€ ์ž„๋ฒ ๋”ฉ ์ฐจ์›, ์„ธ๋กœ์ถ•์€ ์ธ๋ฑ์Šค(=์œ„์น˜)์ด๋‹ค. ๊ทธ๋ž˜์„œ ํ•ด๋‹น ์ธ๋ฑ์Šค์— ํ•ด๋‹นํ•˜๋Š” ์ž„๋ฒ ๋”ฉ ์ฐจ์›๋งŒํผ์˜ ๋ฒกํ„ฐ๋ฅผ positional encoding ๋ฒกํ„ฐ๋กœ ์‚ฌ์šฉํ•ด์„œ ๊ธฐ์กด ๋ฒกํ„ฐ์— ๋”ํ•ด์ฃผ๊ฒŒ ๋œ๋‹ค.

Warm-up Learning Rate Scheduler

์šฐ๋ฆฌ๋Š” loss๊ฐ€ ๊ฐ€์žฅ ์ž‘์€ ์ง€์ ์„ ๋ชฉํ‘œ๋กœ ํ•™์Šต์„ ํ•  ๊ฒƒ์ด๊ณ  ์ด ๋•Œ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋“ค์€ ์ž„์˜๋กœ ์ดˆ๊ธฐํ™”ํ•˜๊ฒŒ ๋˜๋Š”๋ฐ ์•„๋ฌด๋ž˜๋„ Goal๊ณผ๋Š” ๋Œ€๋ถ€๋ถ„ ๋ฉ€๋ฆฌ ์กด์žฌํ•  ๊ฐ€๋Šฅ์„ฑ์ด ํฌ๋‹ค. ๋˜ํ•œ, ์ด ๋•Œ๋Š” Loss ํ•จ์ˆ˜ ํŠน์„ฑ์ƒ ๋ฉ€๋ฆฌ์žˆ์„ ์ˆ˜๋ก Gradient๊ฐ€ ๋งค์šฐ ํด ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค.

  • "gradient ๋งค์šฐ ํผ" ์ด๋ผ๊ณ  ์ž‘์„ฑ๋œ ๊ฒƒ์ž„

๊ทธ๋ž˜์„œ, ์ดˆ๋ฐ˜์— ๋„ˆ๋ฌด ํฐ gradient๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๋„ˆ๋ฌด ํฐ ๋ณดํญ์œผ๋กœ ๊ฑท์ง€ ์•Š๊ฒŒ ์กฐ์ ˆํ•˜๊ธฐ์œ„ํ•ด ์ž‘์€ ํ•™์Šต๋ฅ ์—์„œ ์‹œ์ž‘ํ•ด์„œ ํ•™์Šต๋ฅ ์„ ํ‚ค์›Œ๋‚˜๊ฐ„๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๋ชฉํ‘œ์ง€์ ์— ๊ฐ€๊นŒ์›Œ์งˆ ๋•Œ ํ•™์Šต๋ฅ ์ด ๋„ˆ๋ฌด์ปค์„œ ์ˆ˜๋ ดํ•˜์ง€ ๋ชปํ•˜๋Š” ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•˜์ง€ ์•Š๋„๋ก ํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์‹œ ํ•™์Šต๋ฅ ์„ ๊ฐ์†Œ์‹œํ‚ค๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šต์„ ํ•˜๊ฒŒ ๋œ๋‹ค.

  • ๊ทธ๋ž˜ํ”„์˜ ๋ฒ”์ฃผ์—์„œ ์•ž ์ˆซ์ž๋Š” batch size ๋’ท ์ˆซ์ž๋Š” epoch ์ˆ˜๋ฅผ ์˜๋ฏธํ•œ๋‹ค.

  • batch size๊ฐ€ ์ž‘์„์ˆ˜๋ก ํ•™์Šต๋ฅ ์˜ ์ƒ์Šน ๊ณก์„ ์˜ ๊ธฐ์šธ๊ธฐ๋ฅผ ํฌ๊ฒŒ ๊ฐ€์ง€๋ฉฐ, epoch์ˆ˜๊ฐ€ ์ ์„์ˆ˜๋ก ์ตœ๊ณ ์ ์ด ๋‚ฎ์•„์ง€๊ณ  ๋„๋‹ฌ์†๋„๋„ ์˜ค๋ž˜๊ฑธ๋ฆฌ๊ฒŒ๋œ๋‹ค.

Encoder Self-Attention Visualization

Attention ๋ฒกํ„ฐ๋ฅผ ๋ถ„์„ํ•ด ์‹œ๊ฐํ™”ํ•ด๋ณด์ž.

  • ์ฃผ์–ด์ง„ ๋ฌธ์žฅ์—์„œ making ์ด๋ผ๋Š” ๋‹จ์–ด๋Š”, ์ž๊ธฐ ์ž์‹ ๋„ ์ฐธ์กฐ ํ•˜์ง€๋งŒ more์™€ difficult๋ผ๋Š” ๋‹จ์–ด๋ฅผ ๊ฐ€์žฅ ๋งŽ์ด ์ฐธ์กฐํ•˜๋Š” ๊ฒƒ์œผ๋กœ ์•Œ ์ˆ˜ ์žˆ๋‹ค. ๋”์šฑ ์–ด๋ ต๊ฒŒ ๋งŒ๋“ค์—ˆ๋‹ค๋ผ๋Š” ๋ชฉ์  ๋ณด์–ด์˜ ๋‹จ์–ด๋“ค์„ ์ฐธ์กฐํ•œ๋‹ค. ๋˜, 2009์™€ since๋ผ๋Š” ์‹œ๊ธฐ์ ์ธ ์˜๋ฏธ์˜ ๋‹จ์–ด๋„ ์กฐ๊ธˆ ์ฐธ์กฐํ•œ๋‹ค.

๋‹ค๋ฅธ ๋‹จ์–ด๋ฅผ ๋ณด์ž.

  • its๋Š” ์–ด๋–ค ๋‹จ์–ด๋ฅผ ๊ฐ€๋ฆฌํ‚ค๋Š” ์ง€์— ๋Œ€ํ•ด ์•Œ ์ˆ˜ ์žˆ๊ณ , ์ด๋Ÿฌํ•œ its์— ๋Œ€ํ•ด application์ด๋ผ๋Š” ๋‹จ์–ด๊ฐ€ ์–ด๋А์ •๋„ ๊ด€๋ จ์ด ๋˜์–ด์žˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

Decoder

  • ์ธ์ฝ”๋”์—์„œ "I", "go", "home" ์„ ํ•™์Šต์‹œ์ผฐ๋‹ค๋ฉด ๋””์ฝ”๋”์—์„œ๋Š” "<sos>", "๋‚˜๋Š”", "์ง‘์—" ๋ฅผ ์ž…๋ ฅํ•ด์ค€๋‹ค. ๊ทธ๋Ÿฌ๋ฉด Positional Encoding์„ ๊ฑฐ์นœ ํ›„ Multi-Head Attention์„ ๊ฑฐ์นœ๋‹ค. ์ด ๊ณผ์ •์€ seq2seq์—์„œ decoder์˜ hidden state๋ฅผ ๋ฝ‘๋Š” ๊ณผ์ •์ด๋‹ค.

Masked Self-Attention

๋””์ฝ”๋”์—์„œ output์„ ๋””์ฝ”๋”ฉ ํ•  ๋•Œ ์ •๋ณด์˜ ์ ‘๊ทผ ๋ฒ”์œ„์— ์ œํ•œ์„ ๋‘๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.

์˜ˆ์ธก์„ ํ•  ๋•Œ์—๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ด๋ฃจ์–ด์ ธ์•ผ ํ•œ๋‹ค.

  • "๋‚˜๋Š”"์„ ์˜ˆ์ธก : "<SOS>" ๋งŒ์„ ๊ฐ€์ง€๊ณ  ํ•ด์•ผํ•จ

  • "์ง‘์—"๋ฅผ ์˜ˆ์ธก : "<SOS>"์™€ "๋‚˜๋Š”"๋งŒ์„ ๊ฐ€์ง€๊ณ  ํ•ด์•ผํ•จ

  • ...

์†Œํ”„ํŠธ ๋งฅ์Šค๋ฅผ ๊ฑฐ์น˜๋ฉด ๊ฐ ๋‹จ์–ด์— ๋Œ€ํ•œ ํ™•๋ฅ ์„ ๊ฐ€์ง€๊ฒŒ ๋˜๋Š”๋ฐ ์ด ๊ฐ’์„ ๋ชจ๋‘ 0์œผ๋กœ ๋งŒ๋“ค์–ด์ค˜์•ผ ํ•œ๋‹ค.

  • softmax ๊ฐ’์ด 0์ด ๋˜๊ฒŒ ํ•˜๊ธฐ ์œ„ํ•ด์„œ ๊ฐ ๊ฐ’์— -inf๋ฅผ ๊ณฑํ•ด์ฃผ๊ฒŒ๋œ๋‹ค.

์ดํ›„, ์ •๊ทœํ™”๋ฅผ ํ†ตํ•ด row์˜ ์ดํ•ฉ์ด 1์ด ๋˜๋„๋ก ํ•œ๋‹ค.

Last updated

Was this helpful?