25 Thu
[ํ์ด์ฌ ๋ฅ๋ฌ๋ ํ์ดํ ์น] PART 05 NLP
03 Models
๋ฌธ์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ ๋ชจ๋ธ๋ง
๋ฌธ์ฅ์ด๋ ๋ฌธ๋จ๊ณผ ๊ฐ์ ๋ฌธ์ ๋ฐ์ดํฐ๋ ์ฃผ๋ณ ๋จ์ด์ ๋ํ ์ฐ์์ ์ธ ๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋ง์ ์ ๋ด์์ผ ํ๋ค.
NLP ๋ชจ๋ธ์ ์ธ์ด์ ์ฝ์์ ๋ชจ๋ธ๋ง ํ๋ ค ํ๊ณ Classic Model์ ํต๊ณ์ ์ผ๋ก ์ ๊ทผํ๋ ค๊ณ ํ๋ค.
RNN
Recurrent Neural Network
1๊ฐ์ ๋ฐ์ดํฐ์ ๋ํด 1๊ฐ์ ๊ฒฐ๊ด๊ฐ์ ์์ธกํ๋๋ก ํ์ต๋์ด ์๋ค
์ด๋ฅผ One To One ๋ฌธ์ ๋ผ๊ณ ํ๋ค
Many to One : ๋๊ธ์ ์ ํ ๊ฐ๋ฅ์ฑ ์ ๋๋ฅผ ์ธก์ ํ๋ Sentence Classification
One to Many : ์ฌ์ง ์ ๋ด์ฉ์ ์ค๋ช ํ๋ ๊ธ์ ๋ง๋ค์ด๋ด๋ Image Captioning
Many to Many(token by token) : ๋ฌธ์ฅ์ ๋ชจ๋ Token์ ๋ํ ํ์ฌ๋ฅผ ์์ธกํ๋ Pos Tagging
Many to Mnay(encoder-decoder) : ์ ๋ ฅ ๋ฌธ์ฅ์ ๋ํ ๋ฒ์ญ ๋ฌธ์ฅ์ ๋ง๋ค์ด๋ด์ฃผ๋ Translation
Sequential Data๋ฅผ ๋ค๋ฃจ๋ ๊ฐ์ฅ ๋ํ์ ์ธ ๋ชจ๋ธ
๊ฐ ์ ๋ณด๋ ์ด์ ์ ๋ณด๋ฅผ ์ฐธ๊ณ ํจ์ผ๋ก์จ ๋ฐ์ดํฐ์ ์์์ ๋ํ ์ ๋ณด๋ฅผ ๋ด์ ์ ์๋ค๋ ์ฅ์ ์ด ์์ด ์์ฑ๊ณผ ๊ฐ์ ์ฐ์์ฑ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๋ ๋ฐ ํ์ํ๋ค
์ฑ๋ฅ์ ๋ฐ์ด๋ฌ์ง๋ง ๋ฐ๋ณต์ ์ธ Back Propagation ๋๋ฌธ์ G.V. ๋ฌธ์ ๊ฐ ์ฌํ๋ค
๋ฌธ์ฅ์ ๊ธธ์ด๊ฐ ๊ธธ์ด์ง์๋ก ์ฑ๋ฅ๋ ๋จ์ด์ง๊ณ ์๊ฐ๋ ์ค๋๊ฑธ๋ฆฐ๋ค
์ด๋ฅผ ํด๊ฒฐํ ๋ชจ๋ธ์ด LSTM
LSTM
Long Short -Term Memory, 1997
RNN์ ํฐ ๋จ์ ์ธ ๋จ๊ธฐ ๊ธฐ์ต๋ง ๊ฐ๋ฅํ๋ค๋ ๋ถ๋ถ์ ๊ฐ์
ํต์ฌ์ Cell๊ณผ ๋ค์์ Gate๋ฅผ ํตํ ์ ๋ณด ํํฐ๋ง์ด๋ค.
์ด๋ ๊ฒ ๊ตฌํ Cell ๊ฐ์ ์ต์ข Gate๋ฅผ ๊ฑฐ์น๋ฉด์ ๋ ํ๋ฒ์ ์ ๋ณด ์์ ์ ํตํด ์ต์ข ์ ์ธ ์๋์ธต์ ๊ตฌ์ฑํ๋ค.
๊ทธ ์ธ์ ๋ชจ๋ธ
Bi-RNNs
๊ธฐ์กด ์ผ์ชฝ์์ ์ค๋ฅธ์ชฝ์ ๋จ๋ฐฉํฅ์ด ์๋ ์๋ฐฉํฅ์ ์ ๋ณด๋ฅผ ๋ชจ๋ ์ด์ฉํ๋ ๊ฒ์ด ํต์ฌ
GRUs
LSTM์ Output์ ๊ฐ์ํ ํจ
Attension Mechanism
Convolution Nerual Network for Text Classification
Transformer
๋ณดํต์ ์ธ์ฝ๋์ ๋์ฝ๋๋ RNN๋ฅ์ LSTM์ด๋ GRU ๋ชจ๋์ ์ฌ์ฉํ๊ณ Attention์ ์ ์ฉํ๋ ๋ฐฉ์์ ์ฌ์ฉํ๋๋ฐ Transformer๋ RNN์ ์ ํ ์ฐ์ง ์๊ณ ์ฌ๋ฌ Attention ๋ชจ๋์ ์ด์ด ๋ง๋ค์๋ค
๋ ์์๋๋ก Token์ ์ ๋ ฅ๋ฐ๋ RNN๊ณผ ๋ฌ๋ฆฌ ํ๋ฒ์ ๋ชจ๋ Token์ ์ ๋ ฅ๋ฐ์์ ํ์ต์ด ๋น ๋ฅด๋ค๋ ์ฅ์ ์ด ์๋ค
๊ธฐ์กด ๋ฒ์ญ ๋ชจ๋ธ์์ RNN๋ฅ์ ๋ชจ๋์ ๋ฒ์ด๋ซ๊ณ Attention ๋ง์ผ๋ก๋ ์ข์ ์ฑ๋ฅ์ ๋๋ค๋ ์์๊ฐ ์์ง๋ง Transformer๋ฅผ ์ด์ฉํ ๋ค์ํ ๋ชจ๋ธ์ด ์ฐ๊ตฌ๊ฐ ๋๊ณ ์์์ด ํฐ ์ฐ๊ตฌ ์ฑ๊ณผ์ด๋ค
BERT
๊ตฌ๊ธ์์ ๋ฐํ, 2018
Pre-training of Deep Bidirectional Transformers for Language Understanding
NLP์์ Pre-trained ๋ ๋ชจ๋ธ์ ํ์ตํ๊ณ ์ด๋ฅผ Fine-tuning ํ๋ ๋ชจ๋ธ์ ๊ฐ๋ฅ์ฑ๊ณผ ์ฑ๋ฅ์ ๋์์ ๋ณด์ฌ์ค
Last updated
Was this helpful?