(09๊ฐ) Self-supervised Pre-training Models
210915, 210916
Last updated
Was this helpful?
210915, 210916
Last updated
Was this helpful?
ํธ๋์คํฌ๋จธ ๋ฐ self-attention block์ ๋ฒ์ฉ์ ์ธ sequence encoder and decoder๋ก์จ ์ต๊ทผ ์์ฐ์ด์ฒ๋ฆฌ์ ๋ง์ ๋ถ์ผ์์ ์ข์ ์ฑ๋ฅ์ ๋ด๊ณ ์๋ค. ์ฌ์ง์ด, ๋ค๋ฅธ ๋ถ์ผ์์๋ ํ๋ฐํ๊ฒ ์ฌ์ฉ๋๋ค.
ํธ๋์คํฌ๋จธ๋ ์ด๋ฌํ self-attention block์ 6๊ฐ๋ง ์์๋๋ฐ, ์ต๊ทผ์ ๋ฐ์ ๋ํฅ์ (๋ชจ๋ธ ๊ตฌ์กฐ ์์ฒด์ ๋ณํ๋ ์์ด) ์ด๋ฅผ ์ ์ ๋ ๋ง์ด ์๊ฒ๋์๋ค. ์ด๋ฅผ, ๋๊ท๋ชจ ํ์ต ๋ฐ์ดํฐ๋ฅผ ํตํด์ ํ์ตํ ๋ self-supervised learning framework๋ฅผ ํตํด ํ์ตํ๊ณ transfer learning์ ํํ๋ก fine tuningํด์ ์ข์ ์ฑ๋ฅ์ ๋ด๊ณ ์๋ค.
ํธ๋์คํฌ๋จธ๋ ์ถ์ฒ ์์คํ , ์ ์ฝ ๊ฐ๋ฐ, ์์ ์ฒ๋ฆฌ๋ถ์ผ๊น์ง๋ ํ์ฅํ๊ณ ์์ง๋ง, ์์ฐ์ด ์ฒ๋ฆฌ๋ผ๋ ๋ถ์ผ์์๋ <sos> ๋ผ๋ ํ ํฐ๋ถํฐ ํ๋์ฉ ๋จ์ด๋ฅผ ์์ฑํ๋ค๋ ์ ์์ ๋ฒ์ด๋์ง ๋ชปํ๋ค๋ ํ๊ณ๊ฐ ์๋ค.
ํ ์ฌ๋ผ์ ์ฐฝ์ ์ ์ผ๋ก ๋จธ์คํฌ๊ฐ ์ธ์ด ๋น์๋ฆฌ ์ฐ๊ตฌ๊ธฐ๊ด์ธ Open AI์์ ๋์จ ๋ชจ๋ธ์ด๋ค. ์ต๊ทผ์ GPT-2์ 3๊น์ง ์ด์ด์ ธ ๋๋ผ์ด ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
๋ค์ํ Special Token์ ์ ์ํด์, ๋จ์ํ ์ธ์ด ๋ชจ๋ธ ๋ฟ๋ง ์๋๋ผ ๋ค์ํ ์ธ์ด ๋ชจ๋ธ์ ๋์์ ์ปค๋ฒํ๋ ํตํฉ๋ ๋ชจ๋ธ์ ์ ์ํ๋ค๋ ๊ฒ์ด ํน์ง์ด๋ค.
๊ธฐ๋ณธ์ ์ผ๋ก GPT-1์ ๋ชจ๋ธ๊ตฌ์กฐ์ ํ์ต๋ฐฉ์์ ๋ํด ์์๋ณด์.
ํธ๋์คํฌ๋จธ์ ๋ชจ์์ ๋ฌ๋ผ๋, Text์ Position Embedding์ ๋ํ ๊ฐ์ด ์ ๋ ฅ์ผ๋ก ๋ค์ด๊ฐ๋ฉฐ, self-attention์ ์์ ์ธต์ด 12๊ฐ์ด๋ค.
๊ฒฐ๊ณผ๋ Text Prediction๊ณผ Text Classifier๋ก ๋ฐํ๋๋ค.
Text prediction
์ฒซ ๋จ์ด๋ถํฐ ๋ค์ ๋จ์ด๋ฅผ ์์ฐจ์ ์ผ๋ก ์์ธกํ๋ค.
Text Classifer
์ํ์ค์ ๋ํ ๊ฐ์ ๋ถ๋ฅ๋ฑ์ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํํ๋ค.
๋จ์ํ Task ๋ฟ๋ง ์๋๋ผ, ๋ฌธ์ฅ ๋ ๋ฒจ ๋๋ ๋ค์์ ๋ฌธ์ฅ์ด ์กด์ฌํ๋ ๊ฒฝ์ฐ์๋ ๋ชจ๋ธ์ด ์์ฝ๊ฒ ๋ณํ ์์ด ํ์ฉ๋ ์ ์๋๋ก ํ์ต์ framework๋ฅผ ์ ์ํ๋ค.
์ฐ๋ฆฌ๊ฐ ์๊ณ ์๋ ํ ํฐ ์ด์ธ์๋ Delim์ด๋ Extract๋ผ๋ ํ ํฐ์ ์ฌ์ฉํ๋ฉด์ ์ฌ๋ฌ๊ฐ์ง Task๋ฅผ ์งํํ ์ ์๋ค.
๋ง์ฝ ๋ชจ๋ธ์ ํตํด์, ์ฃผ์ ๋ถ๋ฅ๋ฅผ ํด๋ณธ๋ค๊ณ ํ์. (ex ํด๋น doc์ด ์ ์น, ๊ฒฝ์ , ์ฌํ, ์คํฌ์ธ ๋ถ์ผ ์ค ์ด๋ค ๋ถ์ผ์ธ์ง) ์ด ๋๋ ์ด์ ์ ์ฌ์ฉํ๋ Text Prediction์ด๋ Task Classifier๋ ๋ผ๋ฒ๋ฆฌ๊ณ ๊ทธ ์ ๊น์ง์ output์ธ word๋ณ embedding ๋ฒกํฐ๋ค์ ์ฌ์ฉํด์ ์ถ๊ฐ์ ์ธ Task์ ๋ํ ๋ ์ด์ด๋ฅผ ์ถ๊ฐํด์ ํ์ตํ๋ค.
์ด ๋ ๋ง์ง๋ง์ ์ถ๊ฐ๋๋ layer๋ random initialization์ด ๋์๊ธฐ ๋๋ฌธ์ ์ถ๊ฐ์ ์ผ๋ก ํ์ต์ ํ์ง๋ง, ๊ทธ ์ด์ ๊น์ง์ layer๋ค์ ํ์ต์ด ์ด๋ฏธ ๋์ด์๋ ์ํ์ด๋ค. ๊ทธ๋์, ์ด์ layer๋ค์๊ฒ๋ ํ์ต๋ฅ ์ ๋งค์ฐ ์๊ฒ์ฃผ๋ฉด์ ํฐ ๋ณํ๊ฐ ์ผ์ด๋์ง ์๋๋ก ํ๋ค. ๊ทธ๋์ ์ด์ ์ ํ์ตํ ๋ด์ฉ์ ์ ๋ด๊ณ ์์ผ๋ฉด์ ์ํ๋ Task์๋ ์ ํ์ฉํ ์ ์๋๋ก ํ๋ค. ์ด๋ pre-training๊ณผ fine-tuning์ ๋์์ ์ ์ฉํ๋ ๊ณผ์ ์ด๋ค.
๋, document์ class๋ฅผ ๋ถ๋ฅํ๋ ๋ฌธ์ ์์๋ ๋ฐ์ดํฐ๊ฐ ์ ์ ์ ๋ฐ์ ์๋ค๋ณด๋, ์ด๋ฌํ ๋ฐ์ดํฐ๋ฅผ ๋๋ ค๋ ์ข์ง๋ง
๋, ํ ์คํธ์ class๋ฅผ ๊ตฌ๋ถํ๋ ค๋ฉด labeling์ด ๋์ด์์ด์ผ ํ๋๋ฐ, ์ด๋ฌํ ๋ฐ์ดํฐ์ ์ ์๋์ ์ผ๋ก ๊ทธ ์์ด ์๋ค. ๊ทธ๋์, ์ด์ ์ self-supervised ๋ฐฉ์์ pre-trained ๋ชจ๋ธ์ ๋ถ๋ฌ์์ fine tuning ํ๊ฒ ๋๋ค.
์ด๋ ๊ฒ pre trained ๋ GPT-1 ์ ๋ค์ํ task์ fine tuningํ์ ๋์ ์ฑ๋ฅ์ ๋ค์๊ณผ ๊ฐ๋ค.
๊ฑฐ์ ๋๋ถ๋ถ์ task์์ ์ฑ๋ฅ์ด ํจ์ฌ ์ข์ ๋ชจ์ต์ ๋ณด์ธ๋ค.
๋ฒํธ ๋ชจ๋ธ์ ํ์ฌ๊น์ง๋ ๋๋ฆฌ ์ฐ์ด๋ Pre trained ๋ชจ๋ธ์ด๋ค. GPT์ ๋ง์ฐฌ๊ฐ์ง๋ก Language ๋ชจ๋ธ๋ก์จ ๋ฌธ์ฅ์ ์ผ๋ถ ๋จ์ด๋ฅผ ๋ง์ถ๋ Task์ ๋ํด Pretrained๋ฅผ ์ํํ ๋ชจ๋ธ์ด๋ค.
Self-supervised learning ๋ฐฉ์์ผ๋ก ํ์ตํ๋ Transformer ์ด์ ์ language ๋ชจ๋ธ ์ค์์๋ LSTM ๊ธฐ๋ฐ์ ์ธ์ฝ๋๋ก Pre-train ํ๋ ์ ๊ทผ ๊ธฐ๋ฒ๋ ์กด์ฌํ๋๋ฐ, ์ด๊ฒ์ด ๋ฐ๋ก ELMo์ด๋ค. ์ด๋ฌํ LSTM ๊ธฐ๋ฐ์ ์ธ์ฝ๋๋ฅผ Transformer ๊ธฐ๋ฐ์ ์ธ์ฝ๋๋ก ๋ฐ๊พธ๋ฉด์ ์ฌ๋ฌ Task์ ๋ํด ์ข์ ์ฑ๋ฅ์ ๊ฐ์ง๋ ๋ชจ๋ธ๋ค์ด ๋์๋๋ฐ, ๊ทธ ์ค ํ๋๊ฐ BERT์ด๋ค.
๊ธฐ์กด์ GPT๋ ์ ํ ๋ฌธ๋งฅ์ ํ์ ํ์ง ๋ชปํ๊ณ ์์ชฝ ๋ฌธ๋งฅ๋ง ๋ณด๊ณ ๋ท ๋จ์ด๋ฅผ ์์ธกํด์ผ ํ๋ค๋ ํ๊ณ์ ์ด ์กด์ฌํ๋ค.
์ค์ ์ฌ๋์ ๋ํ์์๋ , ํ ์คํธ์์๋ ๋ค์ชฝ์์ ๋ฌธ๋งฅ์ ํ์ ํ๋ ์ผ์ ์์ฃผ์๋ ์ผ์ด๋ค.
์ฃผ์ด์ง Input์ ๋ํ์ฌ ํ๋ฅ ์ ์ผ๋ก ํน์ ํ ํฐ์ Maskingํ๊ฒ ๋๊ณ ์ด mask๊ฐ ์๋ ์ด๋ค ๋จ์ด์๋์ง ์์๋ด๋ ๋ฐฉ์์ผ๋ก ํ์ต์ด ์งํ๋๊ฒ ๋๋ค.
๋ณดํต์ 15% ์ ๋น์จ๋ก ๋ง์คํน์ ์งํํ๋๋ฐ ์ด ๋น์จ์ด ๋๋ฌด ํฌ๋ฉด ์์ธกํ๋ ๊ฒ์ด ๋๋ฌด ์ด๋ ค์์ง๊ณ ๋๋ฌด ์ ์ผ๋ฉด ํ์ต์ ํ ๋ ๋น์ฉ์ด ์ปค์ง๊ฒ ๋๋ค.
์ด 15%์ ๋น์จ์ BERT๊ฐ ์ฐพ์ ์ต์ ์ ๋น์จ์ด๋ค.
์ฌ๊ธฐ์ ์ค์ํ ๊ฒ์, ๋ง์คํน์ ํ๊ธฐ๋ก ํ 15% ์ ๋ถ๋ฅผ ๋ง์คํนํ์ง ์๋๋ค๋ ๊ฒ์ด๋ค. ๋ง์ฝ, ์ฐ๋ฆฌ๊ฐ ์ด๋ค ํ ์คํธ์ ๊ฐ์ ๋ถ์์ ํ๋ค๊ณ ํ์. ์ด ๋๋ ๋จ์ด๋ฅผ ์์ธกํ ์ผ์ด ์๊ธฐ ๋๋ฌธ์ ๋ง์คํน์ด ํ์๊ฐ ์์ด์ง๋ค. ์คํ๋ ค ์ด๋ฐ ๋ง์คํน์ ํตํด ํ์ต๋ ๋ชจ๋ธ์ ์ค์ ํ์คํฌ์๋ ์ฐจ์ด๊ฐ ์์ด์ ์ ์ด ํ์ต์ ํ๋๋ฐ๋ ๋ถ๊ณผํ๊ณ ์ฑ๋ฅ์ด ๊ฐ์ํ๊ฒ ๋๋ ๋ชจ์ต์ ๋ณด์ธ๋ค.
๊ทธ๋์, 15%์ ๋ง์คํน์ ๋ค์๊ณผ ๊ฐ์ ๋น์จ๋ก ๋ฐ๋๋ค.
๋ฒํธ์์ ์ฐ์ธ Pre trained ๊ธฐ๋ฒ์ด ๋จ์ง MASK๋ ๋จ์ด๋ฅผ ์์ธกํ๋ ๊ฒ ์ด์ธ์ ๋ฌธ์ฅ ๋ ๋ฒจ ํ์คํฌ์์๋ ์ ์ฉ๋ ์ ์๋๋ก ์ ์๋์๋๋ฐ ์ด๊ฒ์ด ๋ฐ๋ก Next Sentence Prediction์ด๋ผ๋ ๊ธฐ๋ฒ์ด๋ค.
๋ค์๊ณผ ๊ฐ์ด ๋ ๊ฐ์ ๋ฌธ์ฅ์ ๋ฝ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋ ๊ฐ์ ๋ฌธ์ฅ ์ฌ์ด์ ๋์๋ [SEP] (seperate) ํ ํฐ์ ์ถ๊ฐํด์ค๋ค. ๋, ๋ฌธ์ฅ ๋ ๋ฒจ์์์ ์์ธก Task๋ฅผ ์ํํ๋ ์ญํ ์ ๋ด๋นํ๋ [CLS] (classification) ํ ํฐ์ ๋ฌธ์ฅ์ ์์ ์ถ๊ฐํด์ค๋ค.
ํ๊ณ ์ ํ๋ ๊ฒ์, ์ฐ๊ฒฐ๋ ๋ ๊ฐ์ ๋ฌธ์ฅ์ด ์ค์ ๋ก ์ฐ๊ฒฐ๋ผ์ ๋์ฌ ์ ์๋ ๋ฌธ์ฅ์ธ์ง ์ ๋ ๋์ฌ ์ ์๋ ๋ฌธ์ฅ์ธ์ง๋ฅผ ์์ธกํ๋ค. ์ด ์์ ์ด ์ํ๋๋ ์์๋ ๋ค์๊ณผ ๊ฐ๋ค.
๋ ๊ฐ์ ๋ฌธ์ฅ์ ๋ฝ๊ณ masking ์์ ์ ํ๋ค.
์๋ฒ ๋ฉ ๋ฒกํฐ๋ฅผ ํตํด mask ์๋ฆฌ์ ๋จ์ด๋ฅผ ์์ธกํ๋ค.
CLS ํ ํฐ์ ๊ฐ์ง๊ณ ๋ ๋ฌธ์ฅ์ด ์ด์ด์ง ์ ์๋์ง ์๋์ง์ ๋ํ Binary classification์ ํ๋ฉฐ ์ด์ ๋ํ Ground Truth๋ ๋ ๋ฌธ์ฅ์ด ์ค์ ๋ก ์ธ์ ํ์ง์ ๋ํ ๋ถ๋ถ์ด๋ค.
๊ฒฐ๊ณผ์ ๋ํ Loss๋ฅผ ๊ฐ์ง๊ณ CLS ํ ํฐ์ด ์์ ๋๋ค.
ํ์ฌ๋ ๋งค์ฐ ๊ฐ๋จํ๊ฒ ์ด์ผ๊ธฐํ์ผ๋ฏ๋ก ์ด์ ๋ํด ์ข ๋ ์์๋ณด์.
๋ชจ๋ธ ๊ตฌ์กฐ ์์ฒด๋ ํธ๋์คํฌ๋จธ์ self-attention block์ ๊ทธ๋๋ก ์ฌ์ฉํ์ผ๋ฉฐ ์ด์ ๋ํ ๋ ๊ฐ์ง ๋ฒ์ ์ผ๋ก ํ์ต๋ ๋ชจ๋ธ์ ์ ์ํ๋ค.
L์ attention layer์ ๊ฐ์, A๋ Attention head์ ๊ฐ์์ด๋ค.
H๋ self attention block์์ ์ฌ์ฉํ๋ ์ธ์ฝ๋ฉ ๋ฒกํฐ์ ์ฐจ์์์ด๋ค.
base ๋ฒ์ ์ large๋ณด๋ค ๊ฒฝ๋ํ๋ ๋ฒ์ ์ด๋ผ๊ณ ๋ณผ ์ ์๋ค.
๋ฒํธ๋ ์ ๋ ฅ sequence๋ฅผ ๋ฃ์ด์ค ๋ word ๋ณ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด ์๋๋ผ, sub word๋ณ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ฅผ ์ฌ์ฉํ๋ค.
ํธ๋์คํฌ๋จธ์์ ์ ์๋ ํน์ ์ฃผ๊ธฐํจ์์ ๊ณ ์ ๋ ๊ฐ์ผ๋ก Positional embedding์ ์ฌ์ฉํ๋๋ฐ, ๋ฒํธ์์๋ ํ์ต๋ Positional embedding vector๋ฅผ ์ฌ์ฉํ๋ค.
CLS์ SEP๋ฅผ ์ฌ์ฉํ๋ค.
Segment embedding์ ๋ฒํธ๋ฅผ ํ์ตํ ๋, ๋ ๋ฌธ์ฅ์ด ์ค์ ์ธ์ ๋ฌธ์ฅ์ธ์ง๋ฅผ ์์ธกํ๋ ํ์คํฌ๋ฅผ ์ํํ ๋ ๊ฐ์ด ์ฌ์ฉ๋๋ค. [SEP] ์ ๊ธฐ์ค์ผ๋ก ๋ ๋ฌธ์ฅ์ด ์์ ๋ ๋๋ฒ์งธ ๋ฌธ์ฅ์ ์ฒซ๋ฒ์งธ ๋จ์ด๋ Position์ ์ผ๋ก๋ ๊ฐ์ฅ ์ฒ์์์๋ถํฐ ๊ฑฐ๋ฆฌ๊ฐ ์์ง๋ง ๋๋ฒ์งธ ๋ฌธ์ฅ๋ง์ ๊ธฐ์ค์ผ๋ก ๋ดค์ ๋๋ ๋๋ฒ์งธ ๋ฌธ์ฅ์ ์ฒซ๋ฒ์งธ ๋จ์ด๋ ๋ผ๋ ๊ฒ์ ์๋ ค์ค์ผ ํ๊ณ ์ด๋ฅผ ์๋ ค์ฃผ๋ ์ญํ ์ ๋ด๋นํ๋ค.
BERT์ GPT์ ์ฐจ์ด์ ์ ์ดํด๋ณด์.
GPT์ ๊ฒฝ์ฐ ๋ฐ๋ก ๋ค์๋จ์ด๋ฅผ ์์ธกํด์ผํ๊ธฐ ๋๋ฌธ์ ๋ค์ ์์นํ๋ ๋จ์ด๋ค์ ์ ๊ทผ์ ํ์ฉํ๋ฉด ์๋๋ค. ๊ทธ๋์ ํน์ ์คํ ์์๋ ์๊ธฐ ์์ ์ ํฌํจํ ์ด์ ๋จ์ด๋ค์ ์ ๋ณด๋ง ํ์ฉ๋๋ค.
๊ทธ๋์ Transformer์ ๋์ฝ๋์์ ์ฌ์ฉํ๋ Masked Self-attention ๋ชจ๋์ ์ฌ์ฉํ๋ค.
๋ฐ๋ฉด, ๋ฒํธ์ ๊ฒฝ์ฐ Masked๋ก ์นํ๋ ํ ํฐ๋ค์ ์์ธกํ๋ ๊ฒ์ด ๋ชฉ์ ์ด๊ณ ๊ทธ๋์ Mask๋ ๋จ์ด๋ฅผ ํฌํจํ ๋ชจ๋ ๋จ์ด๋ค์ ๋ํ ์ ๊ทผ์ด ๊ฐ๋ฅํ๋ค.
๊ทธ๋์ Transformer์ ์ธ์ฝ๋์์ ์ฌ์ฉํ๋ Self-attention ๋ชจ๋์ ์ฌ์ฉํ๊ฒ๋๋ค.
Mask๋ ๋จ์ด๋ฅผ ์์ธกํ๋ Task์ ์ธ์ ๋ฌธ์ฅ์ธ์ง๋ฅผ ๊ตฌ๋ถํ๋ Task๋ฅผ ๊ฐ์ง๊ณ ์ฌ์ ํ์ตํ ๋ชจ๋ธ์ ์ฌ๋ฌ๊ฐ์ง ๋ค์ํ Task์ Fine tuningํ ๋ชจ๋ธ๋ค์ ๊ตฌ์กฐ๋ฅผ ์์๋ณด์.
๋ ผ๋ฆฌ์ ์ผ๋ก ๋ดํฌ๊ด๊ณ ๋๋ ๋ชจ์๊ด๊ณ๋ฅผ ํ๋จํ๋ ์ผ์ด๋ค. ๋ ๊ฐ์ ๋ฌธ์ฅ์ SEP ํ ํฐ์ผ๋ก ํ๋์ ์ํ์ค๋ก ์ ๋ ฅํ๊ณ BERT๋ก ์ธ์ฝ๋ฉ์ํ๋ค. ๊ฐ๊ฐ์ word์ ๋ํ ์ธ์ฝ๋ฉ ๋ฒกํฐ๋ฅผ ์ป์๋ค๋ฉด CLS ํ ํฐ์ ํด๋นํ๋ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ฅผ Output layer์ ์ ๋ ฅ์ผ๋ก ์ฃผ์ด์ ๋ค์ ๋ฌธ์ฅ์ ๋ํ ์์ธก์ ํ ์ ์๋๋ก ํ๋ค.
๋ฌธ์ฅ์ด ํ๋๋ฐ์ ์๊ธฐ ๋๋ฌธ์ ํ ๋ฌธ์ฅ์ ๋ํ CLS ํ ํฐ์ ํ์ตํ๋ค.
์ข ๋ ๋ณต์กํ Task์ธ QA Tasks๋ ๋ค์์ ์ถ๊ฐ์ ์ผ๋ก ์ค๋ช ํ๋ค.
๊ฐ๊ฐ์ ๋จ์ด๋ณ๋ก ํ์ฌ๋ ์๋ฏธ๋ฅผ ํ์ ํด์ผ ํ๋ ๊ฒฝ์ฐ CLS ํ ํฐ๊ณผ ๊ฐ๊ฐ์ word์ ๋ํ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ฅผ ํ์ตํ๊ฒ๋๋ค.
๋ฐฐ์น ์ฌ์ด์ฆ์ ํฌ๊ธฐ๊ฐ ํด์๋ก ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ์ฆ๊ฐํ๊ณ ์์ ํ๋๋ค๋ ์ฌ์ค์ด ์๋ ค์ ธ์๋ค. ๊ทธ๋ ์ง๋ง, ๋ฐฐ์น ์ฌ์ด์ฆ๋ฅผ ํค์ฐ๋ ค๋ฉด ๋ ๋ง์ GPU ๋ฉ๋ชจ๋ฆฌ๊ฐ ํ์๋กํ๊ฒ๋๋ค.
BERT๋ ๊ฐ ๋จ์ด์ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ฅผ ์ป๊ณ Masked ๋ word๋ฅผ ์์ธกํ๋ Output layer๋ฅผ ์ ๊ฑฐํ ๋ค ์ํ๋ Task์ ๋ง๊ฒ layer๋ฅผ ๊ตฌ์ฑํ ์ ์๋ค.
BERT๋ฅผ ๋ค์ํ ์์ฐ์ด ์ฒ๋ฆฌ Task์ Fine Tuning ํํ๋ก ์ ์ฉํ์ ๋ ์ผ๋ฐ์ ์ผ๋ก ๋ ์ข์ ์ฑ๋ฅ์ ๋๋ค.
์ ํ ์ฒ๋ผ ์ฌ๋ฌ Task๋ฅผ ํ๊ณณ์ ๋ชจ์๋์ ํ๋ฅผ GLUE ๋ผ๊ณ ํ๋ค.
์ง์ ์๋ต์ ๋ํ Task์ด๋ค. ๋จ์ํ ์ง๋ฌธ๋ง ์ฃผ์ด์ง๊ณ ๋ต์ ์ป์ด๋ด๋ Task๊ฐ ์๋๋ผ, ๋
ํด๋ ฅ์ ๊ธฐ๋ฐํ Task์ด๋ค. ์ฃผ์ด์ง ์ง๋ฌธ์ ๋ํ ์ง๋ฌธ์ ๋ต์ ๊ตฌํ๋ ์ผ์ด๋ค. ๊ทธ๋์ ๊ธฐ๊ณ ๋
ํด ๊ธฐ๋ฐ์ ์ง์์๋ต
์ด๋ผ๊ณ ํ๋ค.
4๊ฐ์ ์ฅ์๊ฐ ์์ผ๋ฉฐ ๋๋ฒ์งธ ์ค์ they์๋ Daniel์ ํฌํจํ์ง๋ง ๋ค๋ฒ์งธ ์ค์ they์๋ ํฌํจํ์ง ์๋๋ค. ์ด๋ฌํ ๋ถ๋ถ๊น์ง ๋ค ๊ตฌ๋ณํด์ ๋ต์ ๋์ถํด์ผํ๋ค.
์ค์ ๋ก๋ ๋ ์ด๋ ต๊ณ ์ ์๋ฏธํ Task๋ฅผ ํด์ผํ๋ฉฐ, ์ด์๋ํ ๋ฐ์ดํฐ์ ์ผ๋ก๋ SQuAD๊ฐ ์๋ค.
Stanford ๋ํ๊ต์์ ๋ง๋ค์๊ธฐ ๋๋ฌธ์ Stanford Question Answering Dataset
์ ์ค์ฌ์ ๋ช
๋ช
ํ๋ค.
๋ฒํธ์ ์ ๋ ฅ์ผ๋ก ์ง๋ฌธ๊ณผ ๋ต์ ํ์๋ก ํ๋ ์ง๋ฌธ์ SEP ํ ํฐ์ ํตํด Concatํด์ ํ๋์ Sequence๋ก ์ ๊ณตํ ๋ค ์ธ์ฝ๋ฉ์ ์งํํ๋ค.
์ง๋ฌธ์ ๋ํ ๋ต์ด ์์๋๋ ๋ฌธ์ฅ์ ์ฐพ๋ ๊ฒ์ ์์์ ์ผ๋ก ํ๋ค. ๊ฐ ๋จ์ด์ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ฅผ ์ป์ ๋ค ์ด ๋ฒกํฐ๋ค์ FC๋ฅผ ๊ฑฐ์ณ ๊ฐ ๋จ์ด๋ณ๋ก ์ค์นผ๋ผ๊ฐ์ ์ป๊ฒ๋๋ค.
๋, ์ง๋ฌธ์ ๋ํ ๋ต์ด ๋๋๋ ๋ฌธ์ฅ๋ ๋ง์ฐฌ๊ฐ์ง๋ก ์ฐพ์์ผ ํ๋ฉฐ ๋ ๋ค๋ฅธ FC๋ฅผ ๊ฑฐ์ณ ์ค์นผ๋ผ ๊ฐ์ ์ป๊ฒ๋๋ค.
์ดํ, ์คํํ ํฌ์ธํธ์ ์๋ฉ ํฌ์ธํธ๋ฅผ ํ์ตํด์ Ground Truth์ Softmax Loss๋ฅผ ๊ฐ์ง๊ณ ํ์ต์ ์งํํ๊ฒ ๋๋ค.
์ฃผ์ด์ง ์ง๋ฌธ์ ๋ํ ์ง๋ฌธ์ด ํญ์ ์ ๋ต์ด ์กด์ฌํ์ง ์์ ์๋ ์๋ค. ์ด๊ฒ๊น์ง ํ๋จํด์ ์ง๋ฌธ์ด ์์ผ๋ฉด ๋ต์, ์์ผ๋ฉด No answer๋ฅผ ๋ฐํํ๋ค.
์ต์ข ์ ์ผ๋ก ์์ธก์ ์ด ๋ชจ๋ธ์ ์ฌ์ฉํ ๋๋ CLS๋ฅผ ๊ฐ์ง๊ณ Cross Entropy๋ฅผ ํตํด ๋ต์ ์กด์ฌ ์ ๋ฌด๋ฅผ ๋จผ์ ํ์ ํ๋ค. ์ดํ๋ 1.1์ ๋ฐฉ์๊ณผ ๋์ผํ๋ค.
์ฃผ์ด์ง ๋ฌธ์ฅ์ด ์์ ๋ ๋ค์์ ๋ํ๋ ๋ฒํ ์ ์ ํ ๋ฌธ์ฅ์ ๊ณ ๋ฅด๋ Task์ด๋ค. ์ฌ๊ธฐ์๋ CLS ํ ํฐ์ ์ฌ์ฉํ์ง๋ง, ๊ฐ๊ด์์ผ๋ก ์ด๋ฃจ์ด์ ธ์๊ธฐ ๋๋ฌธ์ ๋ฌธ์ ์ ๋ณด๊ธฐ๋ฅผ SEP ํ ํฐ์ผ๋ก Concatํด์ BERT๋ฅผ ํตํด ์ธ์ฝ๋ฉํด์ ์ป์ CLS๋ฅผ ๊ฐ์ง๊ณ FC๋ฅผ ๊ฑฐ์ณ ์ค์นผ๋ผ๊ฐ์ ์ป๋๋ค. ์ด ์ค ๊ฐ์ฅ ํฐ ์ค์นผ๋ผ๊ฐ์ด ์ ๋ต์ด ๋๋ค.
BERT์์ ๊ฐ layer ๋ณ ํ๋ผ๋ฏธํฐ ์๋ฅผ ์ ์ ๋๋ฆฐ๋ค๊ณ ํ ๋, ๋ชจ๋ธ์ ํฌ๊ธฐ๊ฐ ์ ์ ์ปค์ง ์๋ก ์ฑ๋ฅ์ด ๊ณ์์ ์ผ๋ก ๋์์์ด ์ข์์ง๋ค๋ ์ฐ๊ตฌ๊ฒฐ๊ณผ์ด๋ค. GPU๋ฅผ ๊ฐ๋ฅํ ๋ง์ด ์จ์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๋๋ ค ํ์ตํ๋ฉด ๊ทธ๋งํผ ๋ ์ฑ๋ฅ์ด ์ค๋ฅธ๋ค๊ณ ํ๋ค.
๊ฐ๋ฅํ๋ค๋ฉด ๋ชจ๋ธ์ ์ฌ์ด์ฆ๋ฅผ ํค์๋ผ!