(09๊ฐ) Self-supervised Pre-training Models
210915, 210916
Recent Trends
ํธ๋์คํฌ๋จธ ๋ฐ self-attention block์ ๋ฒ์ฉ์ ์ธ sequence encoder and decoder๋ก์จ ์ต๊ทผ ์์ฐ์ด์ฒ๋ฆฌ์ ๋ง์ ๋ถ์ผ์์ ์ข์ ์ฑ๋ฅ์ ๋ด๊ณ ์๋ค. ์ฌ์ง์ด, ๋ค๋ฅธ ๋ถ์ผ์์๋ ํ๋ฐํ๊ฒ ์ฌ์ฉ๋๋ค.
ํธ๋์คํฌ๋จธ๋ ์ด๋ฌํ self-attention block์ 6๊ฐ๋ง ์์๋๋ฐ, ์ต๊ทผ์ ๋ฐ์ ๋ํฅ์ (๋ชจ๋ธ ๊ตฌ์กฐ ์์ฒด์ ๋ณํ๋ ์์ด) ์ด๋ฅผ ์ ์ ๋ ๋ง์ด ์๊ฒ๋์๋ค. ์ด๋ฅผ, ๋๊ท๋ชจ ํ์ต ๋ฐ์ดํฐ๋ฅผ ํตํด์ ํ์ตํ ๋ self-supervised learning framework๋ฅผ ํตํด ํ์ตํ๊ณ transfer learning์ ํํ๋ก fine tuningํด์ ์ข์ ์ฑ๋ฅ์ ๋ด๊ณ ์๋ค.
ํธ๋์คํฌ๋จธ๋ ์ถ์ฒ ์์คํ , ์ ์ฝ ๊ฐ๋ฐ, ์์ ์ฒ๋ฆฌ๋ถ์ผ๊น์ง๋ ํ์ฅํ๊ณ ์์ง๋ง, ์์ฐ์ด ์ฒ๋ฆฌ๋ผ๋ ๋ถ์ผ์์๋ <sos> ๋ผ๋ ํ ํฐ๋ถํฐ ํ๋์ฉ ๋จ์ด๋ฅผ ์์ฑํ๋ค๋ ์ ์์ ๋ฒ์ด๋์ง ๋ชปํ๋ค๋ ํ๊ณ๊ฐ ์๋ค.
GPT-1
ํ ์ฌ๋ผ์ ์ฐฝ์ ์ ์ผ๋ก ๋จธ์คํฌ๊ฐ ์ธ์ด ๋น์๋ฆฌ ์ฐ๊ตฌ๊ธฐ๊ด์ธ Open AI์์ ๋์จ ๋ชจ๋ธ์ด๋ค. ์ต๊ทผ์ GPT-2์ 3๊น์ง ์ด์ด์ ธ ๋๋ผ์ด ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
๋ค์ํ Special Token์ ์ ์ํด์, ๋จ์ํ ์ธ์ด ๋ชจ๋ธ ๋ฟ๋ง ์๋๋ผ ๋ค์ํ ์ธ์ด ๋ชจ๋ธ์ ๋์์ ์ปค๋ฒํ๋ ํตํฉ๋ ๋ชจ๋ธ์ ์ ์ํ๋ค๋ ๊ฒ์ด ํน์ง์ด๋ค.
๊ธฐ๋ณธ์ ์ผ๋ก GPT-1์ ๋ชจ๋ธ๊ตฌ์กฐ์ ํ์ต๋ฐฉ์์ ๋ํด ์์๋ณด์.

ํธ๋์คํฌ๋จธ์ ๋ชจ์์ ๋ฌ๋ผ๋, Text์ Position Embedding์ ๋ํ ๊ฐ์ด ์ ๋ ฅ์ผ๋ก ๋ค์ด๊ฐ๋ฉฐ, self-attention์ ์์ ์ธต์ด 12๊ฐ์ด๋ค.
๊ฒฐ๊ณผ๋ Text Prediction๊ณผ Text Classifier๋ก ๋ฐํ๋๋ค.
Text prediction
์ฒซ ๋จ์ด๋ถํฐ ๋ค์ ๋จ์ด๋ฅผ ์์ฐจ์ ์ผ๋ก ์์ธกํ๋ค.
Text Classifer
์ํ์ค์ ๋ํ ๊ฐ์ ๋ถ๋ฅ๋ฑ์ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํํ๋ค.
๋จ์ํ Task ๋ฟ๋ง ์๋๋ผ, ๋ฌธ์ฅ ๋ ๋ฒจ ๋๋ ๋ค์์ ๋ฌธ์ฅ์ด ์กด์ฌํ๋ ๊ฒฝ์ฐ์๋ ๋ชจ๋ธ์ด ์์ฝ๊ฒ ๋ณํ ์์ด ํ์ฉ๋ ์ ์๋๋ก ํ์ต์ framework๋ฅผ ์ ์ํ๋ค.

์ฐ๋ฆฌ๊ฐ ์๊ณ ์๋ ํ ํฐ ์ด์ธ์๋ Delim์ด๋ Extract๋ผ๋ ํ ํฐ์ ์ฌ์ฉํ๋ฉด์ ์ฌ๋ฌ๊ฐ์ง Task๋ฅผ ์งํํ ์ ์๋ค.
๋ง์ฝ ๋ชจ๋ธ์ ํตํด์, ์ฃผ์ ๋ถ๋ฅ๋ฅผ ํด๋ณธ๋ค๊ณ ํ์. (ex ํด๋น doc์ด ์ ์น, ๊ฒฝ์ , ์ฌํ, ์คํฌ์ธ ๋ถ์ผ ์ค ์ด๋ค ๋ถ์ผ์ธ์ง) ์ด ๋๋ ์ด์ ์ ์ฌ์ฉํ๋ Text Prediction์ด๋ Task Classifier๋ ๋ผ๋ฒ๋ฆฌ๊ณ ๊ทธ ์ ๊น์ง์ output์ธ word๋ณ embedding ๋ฒกํฐ๋ค์ ์ฌ์ฉํด์ ์ถ๊ฐ์ ์ธ Task์ ๋ํ ๋ ์ด์ด๋ฅผ ์ถ๊ฐํด์ ํ์ตํ๋ค.
์ด ๋ ๋ง์ง๋ง์ ์ถ๊ฐ๋๋ layer๋ random initialization์ด ๋์๊ธฐ ๋๋ฌธ์ ์ถ๊ฐ์ ์ผ๋ก ํ์ต์ ํ์ง๋ง, ๊ทธ ์ด์ ๊น์ง์ layer๋ค์ ํ์ต์ด ์ด๋ฏธ ๋์ด์๋ ์ํ์ด๋ค. ๊ทธ๋์, ์ด์ layer๋ค์๊ฒ๋ ํ์ต๋ฅ ์ ๋งค์ฐ ์๊ฒ์ฃผ๋ฉด์ ํฐ ๋ณํ๊ฐ ์ผ์ด๋์ง ์๋๋ก ํ๋ค. ๊ทธ๋์ ์ด์ ์ ํ์ตํ ๋ด์ฉ์ ์ ๋ด๊ณ ์์ผ๋ฉด์ ์ํ๋ Task์๋ ์ ํ์ฉํ ์ ์๋๋ก ํ๋ค. ์ด๋ pre-training๊ณผ fine-tuning์ ๋์์ ์ ์ฉํ๋ ๊ณผ์ ์ด๋ค.
๋, document์ class๋ฅผ ๋ถ๋ฅํ๋ ๋ฌธ์ ์์๋ ๋ฐ์ดํฐ๊ฐ ์ ์ ์ ๋ฐ์ ์๋ค๋ณด๋, ์ด๋ฌํ ๋ฐ์ดํฐ๋ฅผ ๋๋ ค๋ ์ข์ง๋ง
๋, ํ ์คํธ์ class๋ฅผ ๊ตฌ๋ถํ๋ ค๋ฉด labeling์ด ๋์ด์์ด์ผ ํ๋๋ฐ, ์ด๋ฌํ ๋ฐ์ดํฐ์ ์ ์๋์ ์ผ๋ก ๊ทธ ์์ด ์๋ค. ๊ทธ๋์, ์ด์ ์ self-supervised ๋ฐฉ์์ pre-trained ๋ชจ๋ธ์ ๋ถ๋ฌ์์ fine tuning ํ๊ฒ ๋๋ค.
์ด๋ ๊ฒ pre trained ๋ GPT-1 ์ ๋ค์ํ task์ fine tuningํ์ ๋์ ์ฑ๋ฅ์ ๋ค์๊ณผ ๊ฐ๋ค.

๊ฑฐ์ ๋๋ถ๋ถ์ task์์ ์ฑ๋ฅ์ด ํจ์ฌ ์ข์ ๋ชจ์ต์ ๋ณด์ธ๋ค.
BERT
๋ฒํธ ๋ชจ๋ธ์ ํ์ฌ๊น์ง๋ ๋๋ฆฌ ์ฐ์ด๋ Pre trained ๋ชจ๋ธ์ด๋ค. GPT์ ๋ง์ฐฌ๊ฐ์ง๋ก Language ๋ชจ๋ธ๋ก์จ ๋ฌธ์ฅ์ ์ผ๋ถ ๋จ์ด๋ฅผ ๋ง์ถ๋ Task์ ๋ํด Pretrained๋ฅผ ์ํํ ๋ชจ๋ธ์ด๋ค.
Self-supervised learning ๋ฐฉ์์ผ๋ก ํ์ตํ๋ Transformer ์ด์ ์ language ๋ชจ๋ธ ์ค์์๋ LSTM ๊ธฐ๋ฐ์ ์ธ์ฝ๋๋ก Pre-train ํ๋ ์ ๊ทผ ๊ธฐ๋ฒ๋ ์กด์ฌํ๋๋ฐ, ์ด๊ฒ์ด ๋ฐ๋ก ELMo์ด๋ค. ์ด๋ฌํ LSTM ๊ธฐ๋ฐ์ ์ธ์ฝ๋๋ฅผ Transformer ๊ธฐ๋ฐ์ ์ธ์ฝ๋๋ก ๋ฐ๊พธ๋ฉด์ ์ฌ๋ฌ Task์ ๋ํด ์ข์ ์ฑ๋ฅ์ ๊ฐ์ง๋ ๋ชจ๋ธ๋ค์ด ๋์๋๋ฐ, ๊ทธ ์ค ํ๋๊ฐ BERT์ด๋ค.
๊ธฐ์กด์ GPT๋ ์ ํ ๋ฌธ๋งฅ์ ํ์ ํ์ง ๋ชปํ๊ณ ์์ชฝ ๋ฌธ๋งฅ๋ง ๋ณด๊ณ ๋ท ๋จ์ด๋ฅผ ์์ธกํด์ผ ํ๋ค๋ ํ๊ณ์ ์ด ์กด์ฌํ๋ค.
์ค์ ์ฌ๋์ ๋ํ์์๋ , ํ ์คํธ์์๋ ๋ค์ชฝ์์ ๋ฌธ๋งฅ์ ํ์ ํ๋ ์ผ์ ์์ฃผ์๋ ์ผ์ด๋ค.
Pre training Tasks in BERT : Masked Language Model
์ฃผ์ด์ง Input์ ๋ํ์ฌ ํ๋ฅ ์ ์ผ๋ก ํน์ ํ ํฐ์ Maskingํ๊ฒ ๋๊ณ ์ด mask๊ฐ ์๋ ์ด๋ค ๋จ์ด์๋์ง ์์๋ด๋ ๋ฐฉ์์ผ๋ก ํ์ต์ด ์งํ๋๊ฒ ๋๋ค.
๋ณดํต์ 15% ์ ๋น์จ๋ก ๋ง์คํน์ ์งํํ๋๋ฐ ์ด ๋น์จ์ด ๋๋ฌด ํฌ๋ฉด ์์ธกํ๋ ๊ฒ์ด ๋๋ฌด ์ด๋ ค์์ง๊ณ ๋๋ฌด ์ ์ผ๋ฉด ํ์ต์ ํ ๋ ๋น์ฉ์ด ์ปค์ง๊ฒ ๋๋ค.
์ด 15%์ ๋น์จ์ BERT๊ฐ ์ฐพ์ ์ต์ ์ ๋น์จ์ด๋ค.
์ฌ๊ธฐ์ ์ค์ํ ๊ฒ์, ๋ง์คํน์ ํ๊ธฐ๋ก ํ 15% ์ ๋ถ๋ฅผ ๋ง์คํนํ์ง ์๋๋ค๋ ๊ฒ์ด๋ค. ๋ง์ฝ, ์ฐ๋ฆฌ๊ฐ ์ด๋ค ํ ์คํธ์ ๊ฐ์ ๋ถ์์ ํ๋ค๊ณ ํ์. ์ด ๋๋ ๋จ์ด๋ฅผ ์์ธกํ ์ผ์ด ์๊ธฐ ๋๋ฌธ์ ๋ง์คํน์ด ํ์๊ฐ ์์ด์ง๋ค. ์คํ๋ ค ์ด๋ฐ ๋ง์คํน์ ํตํด ํ์ต๋ ๋ชจ๋ธ์ ์ค์ ํ์คํฌ์๋ ์ฐจ์ด๊ฐ ์์ด์ ์ ์ด ํ์ต์ ํ๋๋ฐ๋ ๋ถ๊ณผํ๊ณ ์ฑ๋ฅ์ด ๊ฐ์ํ๊ฒ ๋๋ ๋ชจ์ต์ ๋ณด์ธ๋ค.
๊ทธ๋์, 15%์ ๋ง์คํน์ ๋ค์๊ณผ ๊ฐ์ ๋น์จ๋ก ๋ฐ๋๋ค.

๋ฒํธ์์ ์ฐ์ธ Pre trained ๊ธฐ๋ฒ์ด ๋จ์ง MASK๋ ๋จ์ด๋ฅผ ์์ธกํ๋ ๊ฒ ์ด์ธ์ ๋ฌธ์ฅ ๋ ๋ฒจ ํ์คํฌ์์๋ ์ ์ฉ๋ ์ ์๋๋ก ์ ์๋์๋๋ฐ ์ด๊ฒ์ด ๋ฐ๋ก Next Sentence Prediction์ด๋ผ๋ ๊ธฐ๋ฒ์ด๋ค.
Pre training Tasks in BERT : Next Sentence Prediction
๋ค์๊ณผ ๊ฐ์ด ๋ ๊ฐ์ ๋ฌธ์ฅ์ ๋ฝ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋ ๊ฐ์ ๋ฌธ์ฅ ์ฌ์ด์ ๋์๋ [SEP] (seperate) ํ ํฐ์ ์ถ๊ฐํด์ค๋ค. ๋, ๋ฌธ์ฅ ๋ ๋ฒจ์์์ ์์ธก Task๋ฅผ ์ํํ๋ ์ญํ ์ ๋ด๋นํ๋ [CLS] (classification) ํ ํฐ์ ๋ฌธ์ฅ์ ์์ ์ถ๊ฐํด์ค๋ค.

ํ๊ณ ์ ํ๋ ๊ฒ์, ์ฐ๊ฒฐ๋ ๋ ๊ฐ์ ๋ฌธ์ฅ์ด ์ค์ ๋ก ์ฐ๊ฒฐ๋ผ์ ๋์ฌ ์ ์๋ ๋ฌธ์ฅ์ธ์ง ์ ๋ ๋์ฌ ์ ์๋ ๋ฌธ์ฅ์ธ์ง๋ฅผ ์์ธกํ๋ค. ์ด ์์ ์ด ์ํ๋๋ ์์๋ ๋ค์๊ณผ ๊ฐ๋ค.
๋ ๊ฐ์ ๋ฌธ์ฅ์ ๋ฝ๊ณ masking ์์ ์ ํ๋ค.
์๋ฒ ๋ฉ ๋ฒกํฐ๋ฅผ ํตํด mask ์๋ฆฌ์ ๋จ์ด๋ฅผ ์์ธกํ๋ค.
CLS ํ ํฐ์ ๊ฐ์ง๊ณ ๋ ๋ฌธ์ฅ์ด ์ด์ด์ง ์ ์๋์ง ์๋์ง์ ๋ํ Binary classification์ ํ๋ฉฐ ์ด์ ๋ํ Ground Truth๋ ๋ ๋ฌธ์ฅ์ด ์ค์ ๋ก ์ธ์ ํ์ง์ ๋ํ ๋ถ๋ถ์ด๋ค.
๊ฒฐ๊ณผ์ ๋ํ Loss๋ฅผ ๊ฐ์ง๊ณ CLS ํ ํฐ์ด ์์ ๋๋ค.
ํ์ฌ๋ ๋งค์ฐ ๊ฐ๋จํ๊ฒ ์ด์ผ๊ธฐํ์ผ๋ฏ๋ก ์ด์ ๋ํด ์ข ๋ ์์๋ณด์.
BERT Summary
1. Model Architecture
๋ชจ๋ธ ๊ตฌ์กฐ ์์ฒด๋ ํธ๋์คํฌ๋จธ์ self-attention block์ ๊ทธ๋๋ก ์ฌ์ฉํ์ผ๋ฉฐ ์ด์ ๋ํ ๋ ๊ฐ์ง ๋ฒ์ ์ผ๋ก ํ์ต๋ ๋ชจ๋ธ์ ์ ์ํ๋ค.

L์ attention layer์ ๊ฐ์, A๋ Attention head์ ๊ฐ์์ด๋ค.
H๋ self attention block์์ ์ฌ์ฉํ๋ ์ธ์ฝ๋ฉ ๋ฒกํฐ์ ์ฐจ์์์ด๋ค.
base ๋ฒ์ ์ large๋ณด๋ค ๊ฒฝ๋ํ๋ ๋ฒ์ ์ด๋ผ๊ณ ๋ณผ ์ ์๋ค.
2. Input

๋ฒํธ๋ ์ ๋ ฅ sequence๋ฅผ ๋ฃ์ด์ค ๋ word ๋ณ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด ์๋๋ผ, sub word๋ณ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ฅผ ์ฌ์ฉํ๋ค.
ํธ๋์คํฌ๋จธ์์ ์ ์๋ ํน์ ์ฃผ๊ธฐํจ์์ ๊ณ ์ ๋ ๊ฐ์ผ๋ก Positional embedding์ ์ฌ์ฉํ๋๋ฐ, ๋ฒํธ์์๋ ํ์ต๋ Positional embedding vector๋ฅผ ์ฌ์ฉํ๋ค.
CLS์ SEP๋ฅผ ์ฌ์ฉํ๋ค.
Segment embedding์ ๋ฒํธ๋ฅผ ํ์ตํ ๋, ๋ ๋ฌธ์ฅ์ด ์ค์ ์ธ์ ๋ฌธ์ฅ์ธ์ง๋ฅผ ์์ธกํ๋ ํ์คํฌ๋ฅผ ์ํํ ๋ ๊ฐ์ด ์ฌ์ฉ๋๋ค. [SEP] ์ ๊ธฐ์ค์ผ๋ก ๋ ๋ฌธ์ฅ์ด ์์ ๋ ๋๋ฒ์งธ ๋ฌธ์ฅ์ ์ฒซ๋ฒ์งธ ๋จ์ด๋ Position์ ์ผ๋ก๋ ๊ฐ์ฅ ์ฒ์์์๋ถํฐ ๊ฑฐ๋ฆฌ๊ฐ ์์ง๋ง ๋๋ฒ์งธ ๋ฌธ์ฅ๋ง์ ๊ธฐ์ค์ผ๋ก ๋ดค์ ๋๋ ๋๋ฒ์งธ ๋ฌธ์ฅ์ ์ฒซ๋ฒ์งธ ๋จ์ด๋ ๋ผ๋ ๊ฒ์ ์๋ ค์ค์ผ ํ๊ณ ์ด๋ฅผ ์๋ ค์ฃผ๋ ์ญํ ์ ๋ด๋นํ๋ค.

BERT์ GPT์ ์ฐจ์ด์ ์ ์ดํด๋ณด์.

GPT์ ๊ฒฝ์ฐ ๋ฐ๋ก ๋ค์๋จ์ด๋ฅผ ์์ธกํด์ผํ๊ธฐ ๋๋ฌธ์ ๋ค์ ์์นํ๋ ๋จ์ด๋ค์ ์ ๊ทผ์ ํ์ฉํ๋ฉด ์๋๋ค. ๊ทธ๋์ ํน์ ์คํ ์์๋ ์๊ธฐ ์์ ์ ํฌํจํ ์ด์ ๋จ์ด๋ค์ ์ ๋ณด๋ง ํ์ฉ๋๋ค.
๊ทธ๋์ Transformer์ ๋์ฝ๋์์ ์ฌ์ฉํ๋ Masked Self-attention ๋ชจ๋์ ์ฌ์ฉํ๋ค.
๋ฐ๋ฉด, ๋ฒํธ์ ๊ฒฝ์ฐ Masked๋ก ์นํ๋ ํ ํฐ๋ค์ ์์ธกํ๋ ๊ฒ์ด ๋ชฉ์ ์ด๊ณ ๊ทธ๋์ Mask๋ ๋จ์ด๋ฅผ ํฌํจํ ๋ชจ๋ ๋จ์ด๋ค์ ๋ํ ์ ๊ทผ์ด ๊ฐ๋ฅํ๋ค.
๊ทธ๋์ Transformer์ ์ธ์ฝ๋์์ ์ฌ์ฉํ๋ Self-attention ๋ชจ๋์ ์ฌ์ฉํ๊ฒ๋๋ค.
Fine-tuning Process
Mask๋ ๋จ์ด๋ฅผ ์์ธกํ๋ Task์ ์ธ์ ๋ฌธ์ฅ์ธ์ง๋ฅผ ๊ตฌ๋ถํ๋ Task๋ฅผ ๊ฐ์ง๊ณ ์ฌ์ ํ์ตํ ๋ชจ๋ธ์ ์ฌ๋ฌ๊ฐ์ง ๋ค์ํ Task์ Fine tuningํ ๋ชจ๋ธ๋ค์ ๊ตฌ์กฐ๋ฅผ ์์๋ณด์.

Sentence Pair Classification Tasks

๋ ผ๋ฆฌ์ ์ผ๋ก ๋ดํฌ๊ด๊ณ ๋๋ ๋ชจ์๊ด๊ณ๋ฅผ ํ๋จํ๋ ์ผ์ด๋ค. ๋ ๊ฐ์ ๋ฌธ์ฅ์ SEP ํ ํฐ์ผ๋ก ํ๋์ ์ํ์ค๋ก ์ ๋ ฅํ๊ณ BERT๋ก ์ธ์ฝ๋ฉ์ํ๋ค. ๊ฐ๊ฐ์ word์ ๋ํ ์ธ์ฝ๋ฉ ๋ฒกํฐ๋ฅผ ์ป์๋ค๋ฉด CLS ํ ํฐ์ ํด๋นํ๋ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ฅผ Output layer์ ์ ๋ ฅ์ผ๋ก ์ฃผ์ด์ ๋ค์ ๋ฌธ์ฅ์ ๋ํ ์์ธก์ ํ ์ ์๋๋ก ํ๋ค.
Single Sentence Classification Tasks

๋ฌธ์ฅ์ด ํ๋๋ฐ์ ์๊ธฐ ๋๋ฌธ์ ํ ๋ฌธ์ฅ์ ๋ํ CLS ํ ํฐ์ ํ์ตํ๋ค.
Question Answering Tasks

์ข ๋ ๋ณต์กํ Task์ธ QA Tasks๋ ๋ค์์ ์ถ๊ฐ์ ์ผ๋ก ์ค๋ช ํ๋ค.
Single Sentence Taggine Tasks

๊ฐ๊ฐ์ ๋จ์ด๋ณ๋ก ํ์ฌ๋ ์๋ฏธ๋ฅผ ํ์ ํด์ผ ํ๋ ๊ฒฝ์ฐ CLS ํ ํฐ๊ณผ ๊ฐ๊ฐ์ word์ ๋ํ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ฅผ ํ์ตํ๊ฒ๋๋ค.
BERT vs GPT-1

๋ฐฐ์น ์ฌ์ด์ฆ์ ํฌ๊ธฐ๊ฐ ํด์๋ก ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ์ฆ๊ฐํ๊ณ ์์ ํ๋๋ค๋ ์ฌ์ค์ด ์๋ ค์ ธ์๋ค. ๊ทธ๋ ์ง๋ง, ๋ฐฐ์น ์ฌ์ด์ฆ๋ฅผ ํค์ฐ๋ ค๋ฉด ๋ ๋ง์ GPU ๋ฉ๋ชจ๋ฆฌ๊ฐ ํ์๋กํ๊ฒ๋๋ค.
BERT๋ ๊ฐ ๋จ์ด์ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ฅผ ์ป๊ณ Masked ๋ word๋ฅผ ์์ธกํ๋ Output layer๋ฅผ ์ ๊ฑฐํ ๋ค ์ํ๋ Task์ ๋ง๊ฒ layer๋ฅผ ๊ตฌ์ฑํ ์ ์๋ค.
GLUE Benchmark Results
BERT๋ฅผ ๋ค์ํ ์์ฐ์ด ์ฒ๋ฆฌ Task์ Fine Tuning ํํ๋ก ์ ์ฉํ์ ๋ ์ผ๋ฐ์ ์ผ๋ก ๋ ์ข์ ์ฑ๋ฅ์ ๋๋ค.

์ ํ ์ฒ๋ผ ์ฌ๋ฌ Task๋ฅผ ํ๊ณณ์ ๋ชจ์๋์ ํ๋ฅผ GLUE ๋ผ๊ณ ํ๋ค.
Machine Reading Comprehension(MRC), Question Anwsering
์ง์ ์๋ต์ ๋ํ Task์ด๋ค. ๋จ์ํ ์ง๋ฌธ๋ง ์ฃผ์ด์ง๊ณ ๋ต์ ์ป์ด๋ด๋ Task๊ฐ ์๋๋ผ, ๋
ํด๋ ฅ์ ๊ธฐ๋ฐํ Task์ด๋ค. ์ฃผ์ด์ง ์ง๋ฌธ์ ๋ํ ์ง๋ฌธ์ ๋ต์ ๊ตฌํ๋ ์ผ์ด๋ค. ๊ทธ๋์ ๊ธฐ๊ณ ๋
ํด ๊ธฐ๋ฐ์ ์ง์์๋ต์ด๋ผ๊ณ ํ๋ค.

4๊ฐ์ ์ฅ์๊ฐ ์์ผ๋ฉฐ ๋๋ฒ์งธ ์ค์ they์๋ Daniel์ ํฌํจํ์ง๋ง ๋ค๋ฒ์งธ ์ค์ they์๋ ํฌํจํ์ง ์๋๋ค. ์ด๋ฌํ ๋ถ๋ถ๊น์ง ๋ค ๊ตฌ๋ณํด์ ๋ต์ ๋์ถํด์ผํ๋ค.
์ค์ ๋ก๋ ๋ ์ด๋ ต๊ณ ์ ์๋ฏธํ Task๋ฅผ ํด์ผํ๋ฉฐ, ์ด์๋ํ ๋ฐ์ดํฐ์ ์ผ๋ก๋ SQuAD๊ฐ ์๋ค.
SQuAD 1.1
Stanford ๋ํ๊ต์์ ๋ง๋ค์๊ธฐ ๋๋ฌธ์ Stanford Question Answering Dataset ์ ์ค์ฌ์ ๋ช
๋ช
ํ๋ค.

๋ฒํธ์ ์ ๋ ฅ์ผ๋ก ์ง๋ฌธ๊ณผ ๋ต์ ํ์๋ก ํ๋ ์ง๋ฌธ์ SEP ํ ํฐ์ ํตํด Concatํด์ ํ๋์ Sequence๋ก ์ ๊ณตํ ๋ค ์ธ์ฝ๋ฉ์ ์งํํ๋ค.
์ง๋ฌธ์ ๋ํ ๋ต์ด ์์๋๋ ๋ฌธ์ฅ์ ์ฐพ๋ ๊ฒ์ ์์์ ์ผ๋ก ํ๋ค. ๊ฐ ๋จ์ด์ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ฅผ ์ป์ ๋ค ์ด ๋ฒกํฐ๋ค์ FC๋ฅผ ๊ฑฐ์ณ ๊ฐ ๋จ์ด๋ณ๋ก ์ค์นผ๋ผ๊ฐ์ ์ป๊ฒ๋๋ค.
๋, ์ง๋ฌธ์ ๋ํ ๋ต์ด ๋๋๋ ๋ฌธ์ฅ๋ ๋ง์ฐฌ๊ฐ์ง๋ก ์ฐพ์์ผ ํ๋ฉฐ ๋ ๋ค๋ฅธ FC๋ฅผ ๊ฑฐ์ณ ์ค์นผ๋ผ ๊ฐ์ ์ป๊ฒ๋๋ค.
์ดํ, ์คํํ ํฌ์ธํธ์ ์๋ฉ ํฌ์ธํธ๋ฅผ ํ์ตํด์ Ground Truth์ Softmax Loss๋ฅผ ๊ฐ์ง๊ณ ํ์ต์ ์งํํ๊ฒ ๋๋ค.
SQuAD 2.0
์ฃผ์ด์ง ์ง๋ฌธ์ ๋ํ ์ง๋ฌธ์ด ํญ์ ์ ๋ต์ด ์กด์ฌํ์ง ์์ ์๋ ์๋ค. ์ด๊ฒ๊น์ง ํ๋จํด์ ์ง๋ฌธ์ด ์์ผ๋ฉด ๋ต์, ์์ผ๋ฉด No answer๋ฅผ ๋ฐํํ๋ค.
์ต์ข ์ ์ผ๋ก ์์ธก์ ์ด ๋ชจ๋ธ์ ์ฌ์ฉํ ๋๋ CLS๋ฅผ ๊ฐ์ง๊ณ Cross Entropy๋ฅผ ํตํด ๋ต์ ์กด์ฌ ์ ๋ฌด๋ฅผ ๋จผ์ ํ์ ํ๋ค. ์ดํ๋ 1.1์ ๋ฐฉ์๊ณผ ๋์ผํ๋ค.
On SWAG
์ฃผ์ด์ง ๋ฌธ์ฅ์ด ์์ ๋ ๋ค์์ ๋ํ๋ ๋ฒํ ์ ์ ํ ๋ฌธ์ฅ์ ๊ณ ๋ฅด๋ Task์ด๋ค. ์ฌ๊ธฐ์๋ CLS ํ ํฐ์ ์ฌ์ฉํ์ง๋ง, ๊ฐ๊ด์์ผ๋ก ์ด๋ฃจ์ด์ ธ์๊ธฐ ๋๋ฌธ์ ๋ฌธ์ ์ ๋ณด๊ธฐ๋ฅผ SEP ํ ํฐ์ผ๋ก Concatํด์ BERT๋ฅผ ํตํด ์ธ์ฝ๋ฉํด์ ์ป์ CLS๋ฅผ ๊ฐ์ง๊ณ FC๋ฅผ ๊ฑฐ์ณ ์ค์นผ๋ผ๊ฐ์ ์ป๋๋ค. ์ด ์ค ๊ฐ์ฅ ํฐ ์ค์นผ๋ผ๊ฐ์ด ์ ๋ต์ด ๋๋ค.
Ablation Study
BERT์์ ๊ฐ layer ๋ณ ํ๋ผ๋ฏธํฐ ์๋ฅผ ์ ์ ๋๋ฆฐ๋ค๊ณ ํ ๋, ๋ชจ๋ธ์ ํฌ๊ธฐ๊ฐ ์ ์ ์ปค์ง ์๋ก ์ฑ๋ฅ์ด ๊ณ์์ ์ผ๋ก ๋์์์ด ์ข์์ง๋ค๋ ์ฐ๊ตฌ๊ฒฐ๊ณผ์ด๋ค. GPU๋ฅผ ๊ฐ๋ฅํ ๋ง์ด ์จ์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๋๋ ค ํ์ตํ๋ฉด ๊ทธ๋งํผ ๋ ์ฑ๋ฅ์ด ์ค๋ฅธ๋ค๊ณ ํ๋ค.
๊ฐ๋ฅํ๋ค๋ฉด ๋ชจ๋ธ์ ์ฌ์ด์ฆ๋ฅผ ํค์๋ผ!
Last updated
Was this helpful?