25 Thu
[ํ์ด์ฌ ๋ฅ๋ฌ๋ ํ์ดํ ์น] PART 05 NLP
03 Models
๋ฌธ์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ ๋ชจ๋ธ๋ง
๋ฌธ์ฅ์ด๋ ๋ฌธ๋จ๊ณผ ๊ฐ์ ๋ฌธ์ ๋ฐ์ดํฐ๋ ์ฃผ๋ณ ๋จ์ด์ ๋ํ ์ฐ์์ ์ธ ๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋ง์ ์ ๋ด์์ผ ํ๋ค.
NLP ๋ชจ๋ธ์ ์ธ์ด์ ์ฝ์์ ๋ชจ๋ธ๋ง ํ๋ ค ํ๊ณ Classic Model์ ํต๊ณ์ ์ผ๋ก ์ ๊ทผํ๋ ค๊ณ ํ๋ค.
RNN
Recurrent Neural Network
1๊ฐ์ ๋ฐ์ดํฐ์ ๋ํด 1๊ฐ์ ๊ฒฐ๊ด๊ฐ์ ์์ธกํ๋๋ก ํ์ต๋์ด ์๋ค
์ด๋ฅผ One To One ๋ฌธ์ ๋ผ๊ณ ํ๋ค
Many to One : ๋๊ธ์ ์ ํ ๊ฐ๋ฅ์ฑ ์ ๋๋ฅผ ์ธก์ ํ๋ Sentence Classification
One to Many : ์ฌ์ง ์ ๋ด์ฉ์ ์ค๋ช ํ๋ ๊ธ์ ๋ง๋ค์ด๋ด๋ Image Captioning
Many to Many(token by token) : ๋ฌธ์ฅ์ ๋ชจ๋ Token์ ๋ํ ํ์ฌ๋ฅผ ์์ธกํ๋ Pos Tagging
Many to Mnay(encoder-decoder) : ์ ๋ ฅ ๋ฌธ์ฅ์ ๋ํ ๋ฒ์ญ ๋ฌธ์ฅ์ ๋ง๋ค์ด๋ด์ฃผ๋ Translation
Sequential Data๋ฅผ ๋ค๋ฃจ๋ ๊ฐ์ฅ ๋ํ์ ์ธ ๋ชจ๋ธ
๊ฐ ์ ๋ณด๋ ์ด์ ์ ๋ณด๋ฅผ ์ฐธ๊ณ ํจ์ผ๋ก์จ ๋ฐ์ดํฐ์ ์์์ ๋ํ ์ ๋ณด๋ฅผ ๋ด์ ์ ์๋ค๋ ์ฅ์ ์ด ์์ด ์์ฑ๊ณผ ๊ฐ์ ์ฐ์์ฑ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๋ ๋ฐ ํ์ํ๋ค
์ฑ๋ฅ์ ๋ฐ์ด๋ฌ์ง๋ง ๋ฐ๋ณต์ ์ธ Back Propagation ๋๋ฌธ์ G.V. ๋ฌธ์ ๊ฐ ์ฌํ๋ค
๋ฌธ์ฅ์ ๊ธธ์ด๊ฐ ๊ธธ์ด์ง์๋ก ์ฑ๋ฅ๋ ๋จ์ด์ง๊ณ ์๊ฐ๋ ์ค๋๊ฑธ๋ฆฐ๋ค
์ด๋ฅผ ํด๊ฒฐํ ๋ชจ๋ธ์ด LSTM
LSTM
Long Short -Term Memory, 1997
RNN์ ํฐ ๋จ์ ์ธ ๋จ๊ธฐ ๊ธฐ์ต๋ง ๊ฐ๋ฅํ๋ค๋ ๋ถ๋ถ์ ๊ฐ์
ํต์ฌ์ Cell๊ณผ ๋ค์์ Gate๋ฅผ ํตํ ์ ๋ณด ํํฐ๋ง์ด๋ค.
ํ์ฌ Token Cell Ciโ์ ์ด์ ์ ๋ณด๋ฅผ ๋ด๊ณ ์๋ Cell Ciโ1โ ์์ ์ผ๋ง๋ ์์์ง์ ๋ํ Gate f๋ฅผ ํต๊ณผํ ๊ฐ๊ณผ ํ์ฌ ํ ํฐ์์ ์ผ๋ง๋ ๊ฐ์ ธ์ฌ์ง์ ๋ํ Gate i๋ฅผ ํต๊ณผํ ๊ฐ์ ํฉ์ด๋ค.
์ด์ ์ ๋ณด hiโ1โ๊ณผ ํ์ฌ ํ ํฐ xiโ๊ฐ์ ์กฐํฉํ๋ ๊ณผ์
์ด๋ ๊ฒ ๊ตฌํ Cell ๊ฐ์ ์ต์ข Gate๋ฅผ ๊ฑฐ์น๋ฉด์ ๋ ํ๋ฒ์ ์ ๋ณด ์์ ์ ํตํด ์ต์ข ์ ์ธ ์๋์ธต์ ๊ตฌ์ฑํ๋ค.
๊ทธ ์ธ์ ๋ชจ๋ธ
Bi-RNNs
๊ธฐ์กด ์ผ์ชฝ์์ ์ค๋ฅธ์ชฝ์ ๋จ๋ฐฉํฅ์ด ์๋ ์๋ฐฉํฅ์ ์ ๋ณด๋ฅผ ๋ชจ๋ ์ด์ฉํ๋ ๊ฒ์ด ํต์ฌ
GRUs
LSTM์ Output์ ๊ฐ์ํ ํจ
Attension Mechanism
Convolution Nerual Network for Text Classification
Transformer
๋ณดํต์ ์ธ์ฝ๋์ ๋์ฝ๋๋ RNN๋ฅ์ LSTM์ด๋ GRU ๋ชจ๋์ ์ฌ์ฉํ๊ณ Attention์ ์ ์ฉํ๋ ๋ฐฉ์์ ์ฌ์ฉํ๋๋ฐ Transformer๋ RNN์ ์ ํ ์ฐ์ง ์๊ณ ์ฌ๋ฌ Attention ๋ชจ๋์ ์ด์ด ๋ง๋ค์๋ค
๋ ์์๋๋ก Token์ ์ ๋ ฅ๋ฐ๋ RNN๊ณผ ๋ฌ๋ฆฌ ํ๋ฒ์ ๋ชจ๋ Token์ ์ ๋ ฅ๋ฐ์์ ํ์ต์ด ๋น ๋ฅด๋ค๋ ์ฅ์ ์ด ์๋ค
๊ธฐ์กด ๋ฒ์ญ ๋ชจ๋ธ์์ RNN๋ฅ์ ๋ชจ๋์ ๋ฒ์ด๋ซ๊ณ Attention ๋ง์ผ๋ก๋ ์ข์ ์ฑ๋ฅ์ ๋๋ค๋ ์์๊ฐ ์์ง๋ง Transformer๋ฅผ ์ด์ฉํ ๋ค์ํ ๋ชจ๋ธ์ด ์ฐ๊ตฌ๊ฐ ๋๊ณ ์์์ด ํฐ ์ฐ๊ตฌ ์ฑ๊ณผ์ด๋ค
BERT
๊ตฌ๊ธ์์ ๋ฐํ, 2018
Pre-training of Deep Bidirectional Transformers for Language Understanding
NLP์์ Pre-trained ๋ ๋ชจ๋ธ์ ํ์ตํ๊ณ ์ด๋ฅผ Fine-tuning ํ๋ ๋ชจ๋ธ์ ๊ฐ๋ฅ์ฑ๊ณผ ์ฑ๋ฅ์ ๋์์ ๋ณด์ฌ์ค
Last updated