(08๊ฐ) Sequential Models - Transformer
210812
Last updated
Was this helpful?
210812
Last updated
Was this helpful?
์ํ์ค๋ ๋ค์๊ณผ ๊ฐ์ ์ํ์ค๋ค ๋๋ฌธ์ ๋ชจ๋ธ์ ๊ตฌํํ๊ธฐ ์ด๋ ต๋ค.
ํธ๋์คํฌ๋จธ๋ RNN๊ณผ ๋ฌ๋ฆฌ ์ฌ๊ท์ ์ธ ๋ถ๋ถ์ด ์๊ณ attention
์ด๋ผ๋ ๊ฒ์ ์ฌ์ฉํ๋ค
์ด ํธ๋์คํฌ๋จธ๋ ์ธ์ฝ๋ฉ์ ์์ ์ ๊ฑฐ์น๊ธฐ ๋๋ฌธ์ ๋จ์ํ NMT ๋ฌธ์ ์๋ง ์ ์ฉ๋์ง ์๋๋ค. ์ด๋ฏธ์ง ๋ถ๋ฅ๋ ํ์ง ๋๋ DALL:E ๋ฑ์ ์ ์ฉ๋ ์ ์๋ค
NMT๋ Nerual machine translation์ ์ฝ์ด์ด๋ค.
DALL:E ๋ ๋จ์ด๋ฅผ ์ ์ํ๋ฉด ๋จ์ด์ ํด๋นํ๋ ์ด๋ฏธ์ง๋ฅผ ์ฃผ๋ ๊ฒ
๋ถ์ด๋ฅผ ์์ด๋ก ๋ฐ๊พธ๋ ๋ฑ์ ๊ณผ์ ์ Sequence To Sequnce ๋ผ๊ณ ํ๋ค.
์ ๋ ฅ ์ํ์ค์ ์ถ๋ ฅ ์ํ์ค์ ๊ธธ์ด, ๋๋ฉ์ธ์ด ๋ค๋ฅผ ์ ์๋ค. ๊ทธ๋ฆฌ๊ณ ํ๋์ ๋ชจ๋ธ๋ก ์ด๋ฃจ์ด์ ธ์๋ค. RNN ๊ฐ์ ๊ฒฝ์ฐ๋ 3๊ฐ์ ๋จ์ด๊ฐ ๋ค์ด๊ฐ๋ฉด 3๋ฒ์ ์ฌ๊ท์ ์ผ๋ก ๋๋๋ฐ์ด ๋ฐํด Transformer๋ 100๊ฐ๋ 1000๊ฐ๋ 1๋ฒ์ Encoding ํ ์ ์๋ค.
๋ฌผ๋ก Generation ํ ๋๋ ํ ๋จ์ด์ฉ ๋ง์ง๊ฒ ๋๋ค. Enocding ํ ๋๋ฅผ ๋งํ๋ ๊ฒ
์ฐ๋ฆฌ๊ฐ ์ดํดํด์ผ ํ ๊ฒ์ ๋ค์๊ณผ ๊ฐ๋ค
N๊ฐ์ ๋จ์ด๊ฐ ์ด๋ป๊ฒ ์ธ์ฝ๋์์ ํ๋ฒ์ ์ฒ๋ฆฌ๊ฐ ๋๋์ง
์ธ์ฝ๋์ ๋์ฝ๋๊ฐ ์ด๋ค ์ ๋ณด๋ฅผ ์ฃผ๊ณ ๋ฐ๋์ง
๋์ฝ๋๊ฐ ์ด๋ป๊ฒ ์ ๋๋ ์ด์ ํ ์ ์๋์ง
์ด ์ธ๋ฒ์งธ๋ ์๊ฐ์์ ์ด์ ๋ก ์์ ์์ ๋ ๋ค๋ฃฐ ๊ฒ์ด๋ค.
์๋ก์ด ๋ถ๋ถ์ Self-attention
์ฃผ์ด์ง 3๊ฐ์ ๋ฒกํฐ๊ฐ ์๋ค๊ณ ํ์.
์ด ๋, ์ธ์ฝ๋๋ ๋ฒกํฐ๋ค์ ๋ค๋ฅธ ๋ฒกํฐ๋ค๋ก ๋์์์ผ์ค๋ค.
์ด ๋ ์ค์ํ ์ ์ ๋จ์ํ x1 ์์ z1์ผ๋ก ๋์๋๋ ๊ฒ์ด ์๋๋ผ ๋๋จธ์ง x2์ x3๋ฒกํฐ๋ฅผ ๊ณ ๋ คํด์ z1์ผ๋ก ๋์๋๋ค๋ ๊ฒ. ์ฆ, i๋ฒ์งธ x๋ฅผ i๋ฒ์งธ z๋ก ๋ฐ๊ฟ ๋์๋ ๋๋จธ์ง i-1 ๊ฐ์ x๋ฒกํฐ๋ฅผ ๊ณ ๋ คํ๊ฒ ๋๋ค. ๊ทธ๋์ dependencies ๊ฐ ์๋ค๊ณ ํ๋ค.
๋ฐ๋๋ก, ์ดํ์ feed-forward๋ ๊ทธ๋ฅ ๋คํธ์ํฌ๋ฅผ ํต๊ณผํ๋ ๊ณผ์ ์ด๊ธฐ ๋๋ฌธ์ dependencies๊ฐ ์๋ค.
์ด๋ฒ์๋ ๋ ์ํ์ค "Thinking" ๊ณผ "Machine" ์ด ์๋ค๊ณ ํด๋ณด์. ์ด ๋ Self-Attention
์ ์ค๋ช
ํ๊ณ ์ ํ๋๋ฐ, ๋ค์๊ณผ ๊ฐ์ ๋ฌธ์ฅ์ด ์๋ค๊ณ ํ์
The animal didn't cross the street because it was too tired.
์ฌ๊ธฐ์ It
์ ๋จ์ํ ๋จ์ด์ ์๋ฏธ๋ก ํด์ํ๋ฉด ์๋๊ณ ๋จ์ด๊ฐ ๋ฌธ์ฅ์์์ ๋ค๋ฅธ ๋จ์ด๋ค๊ณผ ์ด๋ ํ Interaction์ด ์๋์ง ํ์
ํด์ผ ํ๋ค.
์ด ๋, Transformer๋ ๋ค๋ฅธ ๋จ์ด๋ค๊ณผ์ ๊ด๊ณ์ฑ์ ํ์ตํ๊ฒ ๋๊ณ ๊ฒฐ๋ก ์ ์ผ๋ก Animal๊ณผ ๋์ ๊ด๊ณ์ฑ์ ๊ฐ์ง๊ณ ์๋ค๊ณ ํ์ตํ๊ฒ ๋๋ค.
Self-Attention ๊ตฌ์กฐ๋ 3๊ฐ์ง ๋ฒกํฐ๋ฅผ ๋ง๋ค์ด ๋ด๊ฒ ๋๋ค. 3๊ฐ์ง ๋ฒกํฐ๊ฐ ์๋ค๋ ๊ฒ์ 3๊ฐ์ NN์ด ์๋ค๋ ๋ป๊ณผ ๊ฐ๋ค.
3๊ฐ์ ๋ฒกํฐ๋ Queries, Keys, Values ์ด๋ค.
๊ทธ๋์ x1๋ฒกํฐ๊ฐ ์ ๋ ฅ๋๋ ์ด๋ฅผ ํตํด q1, k1, v1 ๋ฒกํฐ๋ฅผ ๋ง๋ค๊ฒ ๋๊ณ ์ด ๋ฒกํฐ๋ค์ ํตํด x1 ๋ฒกํฐ๋ฅผ ๋ค๋ฅธ ๋ฒกํฐ๋ก ๋ฐ๊ฟ์ฃผ๊ฒ ๋๋ค.
Thinking๊ณผ Machine์ด๋ผ๋ ๋จ์ด๊ฐ ์ ๋ ฅ๋์๋ค๋ฉด ๊ฐ๊ฐ์ ๋จ์ด์ ๋ํด ์ธ๊ฐ์ง ๋ฒกํฐ๋ฅผ ๋ง๋ค๊ฒ ๋๋ค. ์ดํ์, Score๋ผ๋ ๋ฒกํฐ๋ฅผ ๋ง๋ค๊ฒ ๋๋๋ฐ ๋ด๊ฐ ์ธ์ฝ๋ฉํ๊ณ ์ ํ๋ ๋ฒกํฐ์ ์ฟผ๋ฆฌ๋ฒกํฐ์ ์์ ์ ํฌํจํ ๋๋จธ์ง ๋จ์ด๋ฒกํฐ๋ค์ ํค๋ฒกํฐ๋ฅผ ๋ด์ ํ๋ค.
์ด๋ฅผ ํตํด ํด๋น ๋จ์ด๊ฐ ๋๋จธ์ง ๋จ์ด๋ค๊ณผ ์ผ๋ง๋ ์ ์ฌํ์ง๋ฅผ ํ์ ํ๊ฒ ๋๋ค
๋ด์ ์ ํ ๊ฒ์ ํด๋น ๋จ์ด์ ๋๋จธ์ง ๋จ์ด๋ค ์ฌ์ด์์ ์ผ๋ง๋ Interaction์ ํด์ผํ๋์ง ์์์ ํ์ตํ๊ฒ ํ๊ธฐ ์ํจ์ด๋ค.
์ด๊ฒ์ด ๋ฐ๋ก Attention
์ ํด๋นํ๋ค. ๋ด๊ฐ ์ด๋ค ๋จ์ด๋ฅผ ์ธ์ฝ๋ฉํ๊ณ ์ถ์๋ฐ ์ด๋ค ๋๋จธ์ง ๋จ์ด๋ค๊ณผ intraction์ด ๋ง์ด ์ผ์ด๋์ผ ํ๋์ง ํ์
ํด์ผํจ
์ดํ ์ด ์ ์๋ฅผ 8๋ก ๋๋ ์ฃผ๋๋ฐ ์ด 8์ด๋ผ๋ ์ซ์๋ Keys ๋ฒกํฐ์ Dimension์ ๋ฐ๋ผ ๊ฒฐ์ ๋๋ค. ์ฌ๊ธฐ์๋ ํค๋ฒกํฐ๋ ์ด 64๊ฐ๊ฐ ์๊ณ ์ด๊ฒ์ squareํ 8๋ก ๋๋ ์ฃผ๊ฒ๋๋ค.
์ด๋ score value๊ฐ ๋๋ฌด ์ปค์ง์ง ์๋๋ก ์ด๋ค ๋ ์ธ์ง ์์ ๋๊ฒ ํ๋ ํจ๊ณผ๊ฐ์๋ค.
์ดํ ๊ณ์ฐ๋ ์ ์๋ Softmax๋ฅผ ๊ฑฐ์น๊ฒ๋๊ณ ์ดํ Values ๋ฒกํฐ์ ๊ณฑํด์ง๊ฒ ๋๋ค.
๊ฒฐ๊ตญ Value ๋ฒกํฐ์ ๊ฐ์ค์น๋ฅผ ๊ตฌํ๋ ๊ณผ์ ์ Queries ๋ฒกํฐ์ Keys ๋ฒกํฐ์ ๋ด์ ์ ํตํด ์ป์ ๊ฐ์ ๊ตฌํ๋ค. ์ด ๊ฐ์ Key์ Dimension์ square๋ก ๋๋ ์ฃผ๊ณ Softmaxํด์ ๋์จ attention์ Values ๋ฒกํฐ์ ๊ณฑํ๊ฒ ๋๋ค.
์ฌ๊ธฐ์ ์ค์ํ ์
์ฟผ๋ฆฌ๋ฒกํฐ์ ํค ๋ฒกํฐ๋ ๋ด์ ์ ํด์ผํ๊ธฐ ๋๋ฌธ์ ์ฐจ์์ด ํญ์ ๊ฐ์์ผ ํ๋ค.
ํ์ง๋ง ๋ฐธ๋ฅ ๋ฒกํฐ๋ Weight sum๋ง ํ๋ฉด ๋๊ธฐ ๋๋ฌธ์ ์ฐจ์์ด ๋ฌ๋ผ๋ ๋๋ค.
๋จ์ด ๋ฒกํฐ ์ธ์ฝ๋ฉ ๋ ๋ฒกํฐ์ ์ฐจ์์ ๋ฐธ๋ฅ ๋ฒกํฐ์ ์ฐจ์๊ณผ ๋์ผํด์ผ ํ๋ค
Mutl-Attention์์๋ ๋ ๋ฌ๋ผ์ง๋ค.
ํ๋ ฌ ์ฐ์ฐ์ผ๋ก ์๊ฐํด๋ณด์. ๋จ์ด๊ฐ ๋๊ฐ์ด๊ณ ์๋ฒ ๋ฉ ์ฐจ์์ 4์ฐจ์์ด์ด์ (2, 4)๋ก ํํํ๋ค
์๋ ๋จ์ด์ ๊ฐ์๋งํผ ์๋ฒ ๋ฉ ๋ฒกํฐ์ ์ฐจ์์ ํฌ๊ธฐ๊ฐ ๊ฒฐ์ ๋๋๋ฐ ์ฌ๊ธฐ์๋ ๊ทธ๋ฅ 4์ฐจ์์ผ๋ก ํํํ ๊ฒ ๊ฐ๋ค
๊ทธ๋ฆฌ๊ณ W๋ฅผ ๊ณฑํด์ Q, K, V๋ฅผ ์ป๋๋ค.
๊ทธ๋ฆฌ๊ณ ์ฟผ๋ฆฌ์ ํค๋ฅผ ๊ณฑํด์ ์ํํธ๋งฅ์ค๋ฅผ ๊ฑฐ์น๋ค ๋ฐธ๋ฅ๊ฐ์ ๊ตฌํด์ Sum์ ๊ตฌํ๋ค.
์ฝ๋๋ก ๊ตฌํํ๋ฉด ํ๋์ค๋ก ๊ตฌํ์ด ๊ฐ๋ฅํ๋ค.
์ ํธ๋์คํฌ๋จธ๊ฐ ์๋ ๊น?
๊ธฐ์กด์ CNN ๊ฐ์ ๋ชจ๋ธ์ ์ ๋ ฅ์ด ๊ณ ์ ๋๋ฉด ์ถ๋ ฅ๋ ๊ณ ์ ๋๋ค. ๊ทธ๋ฌ๋ Transformer ๊ฐ์ ๊ฒฝ์ฐ๋ ์ ๋ ฅ์ด ๊ณ ์ ๋์ด๋ ์ฃผ๋ณ ๋จ์ด๋ค์ ๋ฐ๋ผ ์ธ์ฝ๋ฉ ๊ฐ์ด ๋ฐ๋ ์ ์๊ธฐ ๋๋ฌธ์ Flexible ํ ๋ชจ๋ธ์ด๋ผ๊ณ ๋ณผ ์ ์๋ค.
๊ทธ๋์ ๋ค์ํ ์ถ๋ ฅ์ ๋ผ ์ ์๋ค.
Competition๋ ์กด์ฌํ๋ค.
n๊ฐ์ ๋จ์ด๊ฐ ์์ผ๋ฉด n*n๊ฐ์ attention map์ด ์์ด์ผ ํ๋ค.
RNN์ ์ฒ๊ฐ์ ์ํ์ค๊ฐ ์์ผ๋ฉด ์ฒ๋ฒ ๋๋ฆฌ๋ฉด ๋๋ค.(์๊ฐ์ ์ฌ์ ๊ฐ ์๋ค๋ฉด ๋๋ฆฌ๋๋ฐ ๋ฌธ์ ๊ฐ ์๋ค๋ ๋ป) ๊ทธ๋ฌ๋ ํธ๋์คํฌ๋จธ๋ N๊ฐ์ ๋จ์ด๋ฅผ ํ๋ฒ์ ์ฒ๋ฆฌํด์ผ ํ๊ธฐ ๋๋ฌธ์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๋ง์ด ์ก์ ๋จน๋๋ค
๊ทธ๋์ ์ด๋ฐ๊ฒ์ ๊ทน๋ณตํ๋ฉด ๋ Flexble ํ๊ณ ๋ ์ฑ๋ฅ์ด ์ข์ ๋ชจ๋ธ์ด ๋๋ค
ํ ๊ฐ์ ๋จ์ด์ ๋ํด์ ์ฌ๋ฌ๊ฐ์ ๋ฒกํฐ๋ฅผ ๋ง๋ค ์ ์์ผ๋ฉด Multi-headed attention, MHA ๋ผ๊ณ ํ๋ค.
๋ง์ฝ์ 8๊ฐ์ ๋ฒกํฐ๋ฅผ ๋ง๋ ๋ค๊ณ ํ์.
๊ทธ๋ฐ๋ฐ ์ฌ๊ธฐ์, ์ ๋ ฅ ํฌ๊ธฐ์ ์ถ๋ ฅ ํฌ๊ธฐ๊ฐ ๋์ผํด์ผ ํ๋๋ฐ, ์ถ๋ ฅ์ด 8๊ฐ์ด๋ฏ๋ก ์ถ๋ ฅ ํฌ๊ธฐ๊ฐ 8๋ฐฐ๊ฐ ๋๋ค.
๊ทธ๋์ ์ถ๋ ฅ ํฌ๊ธฐ๋ฅผ ๋ง์ถฐ์ฃผ๊ธฐ ์ํด ์ถ๊ฐ๋ก ํ๋ ฌ์ ๊ณฑํด์ฃผ๊ฒ ๋๋ค.
์๋ฅผ ๋ค์ด ์ด (10, 80) ํ๋ ฌ์ด ์์ฑ๋๋ค๋ฉด (80, 10) ํ๋ ฌ์ ๊ณฑํด์ (10, 10) ํ๋ ฌ๋ก ๋ง๋ ๋ค.
๊ทธ๋ฌ๋, ์ค์ ๋ก ์ด๋ ๊ฒ ๊ตฌํ๋์ง๋ ์๋ค. ์์ธํ ๊ฑด ์ฝ๋์ค์ต์์.
์ฐ๋ฆฌ๊ฐ N๊ฐ์ ๋จ์ด๋ฅผ sequential ํ๊ฒ ๋ฃ์์ง๋ง ์ค์ ๋ก Transformer์๋ ์์์ ๋ณด๊ฐ ๋ฐ์๋์ง ์๋๋ค. ๊ทธ๋์ positional encoding์ด ํ์ํ๊ฒ ๋๋ค. ๋ง๋ค์ด์ง๋ ๋ฐฉ๋ฒ์ ์ฌ์ ์ pre-defined ๋ ๋ฐฉ๋ฒ์ ๊ฐ์ง๊ณ ๋ง๋ ๋ค๊ณ ํ๋ค(๊ทธ๋์ ๊ทธ ๋ฐฉ๋ฒ์ด ๋ญ๊น...ใ )
์ผ์ชฝ์ ์์ ์ ์ฐ์ด๋ positional encoding ๋ฐฉ๋ฒ์ด๊ณ ์ต๊ทผ์๋ ์ค๋ฅธ์ชฝ์ฒ๋ผ ์ฌ์ฉํ๋ค๊ณ ํ๋ค.
์ด์จ๋ , attention์ด ๋๋ฉด Z ๋ฒกํฐ๋ฅผ ์์ฑํ๊ฒ ๋๊ณ ์ด ๋ LayerNorm ๊ณผ์ ์ ๊ฑฐ์น๋ค. ์ด๊ฒ ๋ฌด์์ธ์ง ์ค๋ช ํ์ง ์์ผ๋ฏ๋ก ๋ด๊ฐ ์ฐพ์๋ด์ผ๊ฒ ์ง...
๋จผ์ BN์ โ๊ฐ feature์ ํ๊ท ๊ณผ ๋ถ์ฐโ์ ๊ตฌํด์ batch์ ์๋ โ๊ฐ feature ๋ฅผ ์ ๊ทํโ ํ๋ค.
๋ฐ๋ฉด LN์ โ๊ฐ input์ feature๋ค์ ๋ํ ํ๊ท ๊ณผ ๋ถ์ฐโ์ ๊ตฌํด์ batch์ ์๋ โ๊ฐ input์ ์ ๊ทํโ ํ๋ค.
๊ทธ๋ฆผ๋ง ๋ด๋ ์ดํด๊ฐ ์๋๋ค!
์ธ์ฝ๋๋ ๊ฒฐ๊ตญ ๋์ฝ๋์๊ฒ ํค์ ๋ฐธ๋ฅ๋ฅผ ๋ณด๋ด๊ฒ ๋๋ค.
์ถ๋ ฅํ๊ณ ์ ํ๋ ๋จ์ด๋ค์ ๋ํด attention map์ ๋ง๋๋ ค๋ฉด ์ธํ์ ํด๋นํ๋ ๋จ์ด๋ค์ ํค๋ฒกํฐ์ ๋ฐธ๋ฅ๋ฒกํฐ๊ฐ ํ์ํ๊ธฐ ๋๋ฌธ์ด๋ค.
์ธํ์ ํ๋ฒ์ ์ ๋ ฅ๋ฐ์ง๋ง ์ถ๋ ฅ์ ํ ๋จ์ด์ฉ ๋์ฝ๋์ ๋ฃ์ด์ ์ถ๋ ฅํ๊ฒ ๋๋ค.
๋์ฝ๋์์๋ ์ธ์ฝ๋์ ๋ฌ๋ฆฌ ์์ฐจ์ ์ผ๋ก ๊ฒฐ๊ณผ๋ฅผ ๋ง๋ค์ด๋ด์ผ ํด์ self-attention์ ๋ณํํ๊ฒ๋๋ค. ๋ฐ๋ก masking์ ํด์ฃผ๋ ๊ฒ. ์ธ์ฝ๋๋ ์ ๋ ฅ์์๊ฐ ์ด๋ฏธ ์ ํด์ ธ์๊ธฐ ๋๋ฌธ์ decoder์ ์ฅ์์๋ i๋ฒ์งธ ๋จ์ด๊ฐ ๋ฌด์์ธ์ง ์์ธกํ๊ธฐ๊ฐ ์ฌ์์ง๊ธฐ ๋๋ฌธ์ ์ด๋ฌํ ๋ง์คํน์ ํด์ค๋ค.
Encoder-Decoder Attention
์ ๋์ฝ๋๊ฐ ์ฟผ๋ฆฌ ๋ฒกํฐ๋ฅผ ์ ์ธํ๊ณ ๋ ํค ๋ฒกํฐ์ ๋ฐธ๋ฅ ๋ฒกํฐ๋ ์ธ์ฝ๋์์ ์์ฑ๋ ๊ฒ์ ์ฌ์ฉํ๊ฒ ๋ค๋ผ๋ ์ธ์ฝ๋์ ๋์ฝ๋์ ์ํธ์ฐ๊ฒฐ์ฑ์ ์๋ฏธํ๋ค
์ถ๊ฐ์ ์ผ๋ก ๋๋ฃ์ ์ด๋ฐ ์ด์ผ๊ธฐ๋ฅผ ๋๋์๋ค.
๊ทผ๋ฐ positional encoding์ด ๊ณผ์ฐ ํ์์ผ๊น?
๋ณดํต ์ธ์ด๋ชจ๋ธ์์๋ positional encoding์ด ๊ฑฐ์ ํ์์ด๋ค. ์ฌ์ฉํ์ง ์์๋ ์๋์ ๊ทธ๋ญ์ ๋ญ ํ๋ค. ๊ทผ๋ฐ ๊น์ autoregressive model(ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ ํ ์ข ๋ฅ)์์๋ ๋ฐ์ดํฐ์ ์ด ๋ง๊ณ ๋ชจ๋ธ์ด ๊น๋ค๋ณด๋๊น ์์์ ๋ณด๊ฐ ์๋๋ฐ๋ ๋ฐ์ดํฐ ์์ฒด์์ ๊ฐ์ค์น์๊ฒ ์์์ ๋ํ ์ ๋ณด๋ฅผ ์ ๊ณตํด์ค๋ค. ๊ทธ๋์ ๋ง์ง๋ง์๋ ์คํ๋ ค ์์์ ๋ณด๋ฅผ ์ ๊ณตํ์ง ์์๋๋ ์ฑ๋ฅ์ด ๋์ด๋ฌ๋ค.
self-attention์ ๋จ์ด๋ค์ sequence์๋ง ์ฌ์ฉํ๋ ๊ฒ์ด ์๋๋ผ ์ด๋ฏธ์ง์๋ ์ฌ์ฉํ๊ฒ ๋์๋ค.
์ธ์ฝ๋๋ง ์ฌ์ฉํ๊ณ , ์ธ์ฝ๋์์ ๋์ค๋ ๋ฒกํฐ๋ฅผ ๋ฐ๋ก ๋ถ๋ฅ๋ชจ๋ธ์ ์ฌ์ฉํ๊ฒ๋๋ค.
์ฐจ์ด์ ์ด๋ผ๊ณ ํ๋ฉด ์ธ์ด๋ ๋ฌธ์ฅ๋ค์ sequenceํ๊ฒ ๋ฃ์ด์ค ๊ฒ์ ๋นํด ์ด๋ฏธ์ง๋ ๋ช ๊ฐ์ ๋ถ๋ถ์กฐ๊ฐ์ผ๋ก ๋๋๋ค Linear Layer๋ฅผ ํต๊ณผํด๊ฐ์ง๊ณ ํ๋์ ์ ๋ ฅ์ธ ๊ฒ ์ฒ๋ผํด์ ๋ฃ๋๋ค.
๋ฌผ๋ก positional encoding์ด ๋ค์ด๊ฐ๋ค.
๋ฌธ์ฅ์ ์ฃผ๋ฉด ์ด๋ฏธ์ง๋ฅผ ์ ๊ณตํ๋ ๊ฒ. ํธ๋์คํฌ๋จธ์ ์๋ ๋์ฝ๋๋ง ํ์ฉ์ ํ๋ค.
๋ฅผ ์ฐธ๊ณ ํ ๊ฒฐ๊ณผ LN์ ๋ค์๊ณผ ๊ฐ๋ค (BN๊ณผ์ ์ฐจ์ด๋ฅผ ํตํด ์ค๋ช )
๋ ผ๋ฌธ์์๋ ์ด๋ ๊ฒ ๋งํ๋ค