(10๊ฐ) Advanced Self-supervised Pre-training Models
210916
Last updated
Was this helpful?
210916
Last updated
Was this helpful?
๋ณด๋ค ์ต๊ทผ์ ๋์จ ๋ชจ๋ธ์ด๋ค. GPT-1 ๊ณผ ๋ชจ๋ธ ๊ตฌ์กฐ์ ์ธ ์ฐจ์ด๋ ์์ง๋ง ๋ค์๊ณผ ๊ฐ์ ํน์ง์ด ์๋ค.
Transformer ๋ชจ๋ธ์ ๋ ์ด์ด๊ฐ ๋ง์์ก๋ค
์ฌ์ ํ ๋ค์ ๋จ์ด๋ฅผ ์์ธกํ๋ Language Model์ ์ฌ์ฉํ์๋ค.
Training data๋ 40GB ๋ผ๋ ์ฆ๊ฐ๋ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋ค.
์ด ๋ ๋จ์ํ ๊ทธ๋ฅ ๋ฐ์ดํฐ๊ฐ ์๋๋ผ ํ์ง์ด ๋งค์ฐ ์ข์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋ค.
์ฌ๋ฌ down-stream stasks๊ฐ zero-shot setting ์ผ๋ก ๋ชจ๋ ๋ค๋ค์ง ์ ์๋ค๋ ์ ์ ๋ณด์ฌ์ค๋ค.
์ฌ๋์ด ์ด ๋ถ๋ถ(๋นจ๊ฐ์) ์ดํ๋ก ๋งค์ฐ ์์ฐ์ค๋ฝ๊ฒ ๊ธ(ํ๋์)์ ์์ฑํ ๋ชจ์ต
๋ชจ๋ ์์ฐ์ด Task๋ค์ด ์ง์์๋ต์ ํํ๋ก ๋ฐ๋ ์ ์๋ค๋ ํต์ฐฐ์ ์ ์ํ๋ค.
์ด์ ์๋ Binary classification์ ๊ฐ์ ๋ถ์๊ณผ How are you ๋ผ๋ ์ง๋ฌธ์ ๋ํ ๋ต๋ณ์ ์์ธกํ๋ ๊ฒ์ด ์๋ก ๋ค๋ฅธ Output layer ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ธฐ ๋๋ฌธ์ ๋ค๋ฅธ Task๋ก ๊ฐ์ฃผ๋์๋ค.
๊ฐ์ ๋ถ์
"Do you think this sentence is positive?"
๋ฌธ๋จ์์ฝ
"What is topic or point on this literature?"
๋ฐ์ดํฐ์ ์ ํฌ๊ธฐ๊ฐ ๋งค์ฐ ํฌ๋ฉด์๋ ํ์ง ์ญ์ ์ข์ ์ง์์ ํจ๊ณผ์ ์ผ๋ก ์ ๋ฐฐ์ธ ์ ์๋ค.
์ผ๋ถ๋ ๋ ๋ง์ ์๋ ๋ต๋ณ์ค ์ธ๋ถ๋งํฌ๊ฐ ์๊ณ , ๋ ์ด ๋ต๋ณ์ด ์ข์์๊ฐ 3๊ฐ ์ด์ ๋ฐ์์ ๋ ์ด ์ธ๋ถ๋งํฌ ์ ๊ฒ์๋ฌผ์ ๋ฐ์ดํฐ์ ์ผ๋ก ๋ง๋ค์๋ค.
๋ ๋ง์ ์ง๋ฌธ/๋ต๋ณ ์ฌ์ดํธ
๋ํ, Byte pair encoding์ ์ฌ์ฉํ์ผ๋ฉฐ Layer Normalization์ ์์น๊ฐ ์กฐ๊ธ ๋ฐ๋์๋ค. ๋, ๋ ์ด์ด๊ฐ ์ฌ๋ผ๊ฐ์๋ก ์ ํ๋ณํ์ ์ฌ์ฉ๋๋ ์๋ค์ด 0์ ๊ฐ๊น์์ง๋๋ก ํ๋๋ฐ ์ด๋, ์์ชฝ์ ๋ ์ด์ด์ ์ญํ ์ด ์ค์ด๋ค ์ ์๋๋ก ๋ชจ๋ธ์ ๊ตฌ์ฑํ๋ค.
๋ชจ๋ Task๋ ์ง์์๋ต์ ํํ๋ก ๋ฐ๋ ์ ์๋ค. ์๋๋ ์ฃผ์ด์ง ๋ํํ ์ง์์๋ต ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ Fine tuning ํ๋ ๊ณผ์ ์ ๊ฑฐ์ณ์ผํ๋๋ฐ, ์ด๋ฅผ ํ์ตํ์ง ์๊ณ (=Zero shot setting) ๋ฐ๋ก ์ถ๋ก ํ๋ ์คํ์ ํด๋ณด์๋๋ 55 F1 score๊ฐ ๋์๊ณ fine tuning์ ๊ฑฐ์น๋ 89 F1 score๊ฐ ๋์๋ค.
Zero-shot setting์ผ๋ก๋ ์์ฝ์ด ๊ฐ๋ฅํ๋๋ฐ ์ด ์ด์ ๋ GPT-2๋ ์ด์ ๋จ์ด๋ก ๋ท ๋จ์ด๋ฅผ ์์ธกํ๋ค๋ณด๋, ๋ฌธ๋จ์ ๋ง์ง๋ง ๋จ์ด๊ฐ TR ํ ํฐ์ผ๋ก ์์ธกํ ์ ์๋๋ก ์ด๊ธฐ ๋ชจ๋ธ ํ์ต ๋ ๋ฐ์ดํฐ์ ์ ๊ฐ ๋ฌธ์ฅ ๋์ TR ํ ํฐ์ ์ถ๊ฐํ๊ณ (์๋ํ๋ฉด ์์ฝ Task์ ์ํ Fine tuning์ด ๊ทธ๋ ๊ฒ ์ด๋ฃจ์ด์ง) ๋ฐ๋ก ์ด๋ ํ ๋ฐ์ดํฐ์ ์ ์ฒ๋ฆฌ๊ฐ ํ์์์ด ๊ธฐ์กด ํ์ต๋ง์ผ๋ก๋ ์์ฝ์ ์ํํ ์ ์๊ฒ๋๋ค.
๋ง์ฐฌ๊ฐ์ง๋ก, ๋ฒ์ญ ์ญ์ ์ฃผ์ด์ง ๋ฌธ์ฅ์ด๋ ๋ฌธ๋จ ๋ค์ "they say in french" ๋ฑ์ ๋ถ์ฌ์ฃผ๋ฉด ํด๋น์ธ์ด(์ฌ๊ธฐ์๋ ๋ถ์ด)๋ก ์ ๋ฒ์ญํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
GPT-2 ๋ฅผ ๋ ๊ฐ์ ํ ๋ชจ์ต. ๊ธฐ์กด ๋ชจ๋ธ์ ๊ตฌ์กฐ๋ฅผ ๋ฐ๊พธ์ง ์์๊ณ ํจ์ฌ ๋ง์ ๋ฐ์ดํฐ์ , ํจ์ฌ ๊น์ ๋ ์ด์ด, ํจ์ฌ ๋ง์ ๋ฐฐ์น ์ฌ์ด์ฆ๋ฅผ ์ ์ฉํด์ ์ฑ๋ฅ์ ๋ง์ด ๋์ด์ฌ๋ ธ๋ค.
GPT-3๋ 2020๋ ์ ์ธ๊ณต์ง๋ฅ์ผ๋ก ์ ๋ช ํ ํํ NeruIPS ์์ Best Paper ์์ ๋ฐ์๋๋ฐ ๊ทธ ์ด์ ๋ ๋ค์๊ณผ ๊ฐ์ ๋๋ผ์ด ์ ์ ๋ณด์ฌ์คฌ๊ธฐ ๋๋ฌธ์ด๋ค.
๊ธฐ์กด์ GPT-2 ๊ฐ ๋ณด์ฌ์ค Zero-shot ์ธํ ์์์ ๊ฐ๋ฅ์ฑ์ ๋ง์ด ๋์ด์ฌ๋ ธ๋ค.
์์ด๋ฅผ ๋ถ์ด๋ก ๋ฒ์ญํ๋ Task๋ฅผ ์ด๋ ํ fine tuning ์์ด ์งํํ๋ ๋ชจ์ต.
one shot์ ์ด์ ๋ํด ์์๋ฅผ ๋ฑ ํ๋ฒ๋ง ์ ๊ณตํด์ฃผ๋ ๊ฒ
๋ฒ์ญ์ ์ํ ํ์ต ๋ฐ์ดํฐ๋ก ๋ฑ ํ์๋ง ์ ๊ณตํ๋๋ฐ, ์ด๋ฌํ ๋ฐ์ดํฐ์ ํ์ต์ ์ํด ๋ชจ๋ธ์ ๋ ์ด์ด๋ฅผ ๋ณ๊ฒฝํ๊ฑฐ๋ ํ๋ ๊ฒ์ ์ผ์ ํ์ง ์๊ณ ๊ธฐ์กด ๋ฐ์ดํฐ์ ๋ชจ์์ผ๋ก ์ฌ์ฉํ๋ค.
Zero-shot ์ธํ ๋ณด๋ค ํจ์ฌ ์ฑ๋ฅ์ด ์ฆ๊ฐํ๋ค.
one-shot ๋ณด๋ค ์ฑ๋ฅ์ด ๋ ํฅ์ํ๋ค.
๋ฐ์ดํฐ๋ฅผ "๋์ ์ผ๋ก" ํ์ตํ๊ณ ์ข์ ์ฑ๋ฅ์ ๋ธ๋ค๋ ์ ์์ GPT-3์ ์ฅ์ ์ ๋ณด์ฌ์ค๋ค.
๋ํ, ๋ชจ๋ธ์ ํฌ๊ธฐ๊ฐ ํฌ๋ฉด ํด์๋ก ๋ชจ๋ธ์ "๋์ ์ ์ ๋ฅ๋ ฅ"์ด ๋น ๋ฅด๊ฒ ์์นํจ์ ์ ์ ์๋ค.
ALBERT ๋ชจ๋ธ์ ๊ธฐ์กด์ ๋ฉ๋ชจ๋ฆฌ๋ ํ์ต ๋น์ฉ์ ๋ํ ์ฅ์ ๋ฌผ์ ์ค์ด๊ณ ์ฑ๋ฅ์ ํฐ ํ๋ฝ ์์ด, ์คํ๋ ค ์ฑ๋ฅ์ ํฅ์ ์ํค๋ ค๊ณ ํ๋ค.
๋, ์๋ก์ด ๋ณํ๋ ํํ์ ๋ฌธ์ฅ๋ ๋ฒจ์ self-supervised learning์ pre-trained task๋ฅผ ์ ์ํ๋ค.
๊ตฌ์ฒด์ ์ผ๋ก ์ดํด๋ณด์.
์๋ฒ ๋ฉ ๋ฒกํฐ์ ์ฐจ์์ด ์์ผ๋ฉด ์ํ์ค์ ํน์ง์ ๋ชจ๋ ๋ค ๋ด์๋ด์ง ๋ชปํ๊ฒ๋๊ณ , ๊ทธ๋ ๋ค๊ณ ๋๋ฌด ํฌ๋ฉด ์ฐ์ฐ๋๋ ๋๊ณ ํ๋ผ๋ฏธํฐ ์๋ ์ฆ๊ฐํ๊ฒ๋๋ ๋๋ ๋ง๊ฐ ์์๋ค.
๊ทผ๋ฐ, ์ ์๊ฐํด๋ณด์. ๋ ์ด์ด๋ฅผ ์ฌ์ธต์๊ฒ ์๋๋ค๋ ๊ฒ์ ์ํ์ค์ ์ธ๋ฐํ๊ณ ์ ์๋ฏธํ ํน์ง๋ค์ ํ์ ํ๊ฒ ๋ค๋ ๊ฒ๊ณผ ๊ฐ๋ค. ๊ทธ๋ ๋ค๋ ๊ฒ์ ์ด๋ฌํ ํน์งํ์ ์ด๋ผ๋ ์ญํ ์ ๊น์ ๋ ์ด์ด์๊ฒ ๋งก๊ธฐ๊ณ , ๊ฐ ๋จ์ด๊ฐ ๊ฐ์ง๋ ์๋ฒ ๋ฉ ๋ฒกํฐ์ ์ฐจ์์ ์กฐ๊ธ ์ค์ด๋ค์ด๋ ๊ด์ฐฎ์ง ์์๊น ๋ผ๋ ์์ด๋์ด๊ฐ ์๊ฒผ๊ณ ์ด๋ฅผ ์ํด ์๋ฒ ๋ฉ ์ฐจ์์ ์ค์ด๋ ์ธ์ฌ์ดํธ๋ฅผ ์๋ฒํธ๊ฐ ์ ์ํ๊ฒ๋๋ค.
๊ธฐ์กด์๋ ๋ค์๊ณผ ๊ฐ์ด ๋จ์ด์ ์๋ฒ ๋ฉ์ positinal ๋ฒกํฐ๋ฅผ ๋ํด์ ๋ ์ด์ด์์ ์ฌ์ฉํ๋ค๋ฉด,
์๋ฒํธ์์๋ ๋ ์ด์ด์ ์ ๋ ฅ์ผ๋ก ์ฃผ๋ ์ฐจ์์ ๊ธฐ์กด๊ณผ ๋์ผํ์ง๋ง, ๋ ์ด์ด์ ์ ๋ ฅ ์ฐจ์๊ณผ ์๋ฒ ๋ฉ์ ์ฐจ์์ ๊ฐ์ ํ์๊ฐ ์๋๋ก ํ๋ ์์ด๋์ด๋ฅผ ์ ์ํ๋ค.
๋ฒํธ๋ ์๋ฒ ๋ฉ ๋ฒกํฐ์ ์ฐจ์์ด 4์ธ๋ฐ ๋นํด ์๋ฒํธ๋ 2์ ์ฐจ์์ ๊ฐ์ง๋ ๊ฒ์ ๋ณผ ์ ์๋ค.
2์ ์ฐจ์์ ๊ฐ์ง ์๋ฒ ๋ฉ ๋ฒกํฐ์ ๊ฐ์ค์น W(E x H shape)๋ฅผ ๊ณฑํด์ 4์ฐจ์์ ๋ฒกํฐ๋ฅผ ์์ฑํ๊ฒ ๋๋ค.
์ด ๋ฐฉ๋ฒ์ด ์ค์ ๋ก ํ๋ผ๋ฏธํฐ ์๋ฅผ ์ค์ฌ์ฃผ์์๊น?
Vocab size๊ฐ 500์ด๊ณ , attention layer์์ ์ฌ์ฉ๋์ด์ผ ํ๋ ์ฐจ์์ด 100์ด๋ผ๊ณ ํ์.
๋ฒํธ(์ผ์ชฝ)๋ 500*100 = 50,000 ๊ฐ์ ํ๋ผ๋ฏธํฐ๊ฐ ํ์ํ๋ค
์๋ฒํธ(์ค๋ฅธ์ชฝ)์ 500*15 + 15*100 = 9,000 ๊ฐ์ ํ๋ผ๋ฏธํฐ๊ฐ ํ์ํ๋ค.
์ด๋ฌํ ๋ฐฉ๋ฒ์ผ๋ก ํ์ํ ํ๋ผ๋ฏธํฐ ์๋ฅผ ์ค์ด๊ฒ ๋๋ฉฐ ์ด๋ Vocab size์ hidden dimension์ด ์ฆ๊ฐํ ์๋ก ํ๋ผ๋ฏธํฐ ์์ ์ฐจ์ด๊ฐ ๋๊ฒ๋๋ค.
์๋ฒํธ๊ฐ ๊ฐ์ง๋ ์ฅ์ ์ ๋ ์๋ค. ๊ธฐ์กด์ ํธ๋์คํฌ๋จธ์์ ๋ ์ด์ด๋ฅผ ๊น๊ฒ ์์์๋ก ํ๋ผ๋ฏธํฐ ์๊ฐ ์ ์ ๋์ด๋๋ ์ด์ ๋ ๋ค์๊ณผ ๊ฐ๋ค.
multi-head attention์ ์ ์ฉํ๋ฉด์ ๊ฐ๊ฐ์ head๊ฐ ๋ ๋ฆฝ์ ์ด๋ฉด์ ์๋ก ๋ค๋ฅธ Q, K, V๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ
์ฌ๋ฌ ์ธต์ผ๋ก ๊ตฌ์ฑ๋ layer ์ญ์ ๋ชจ๋ ๋ค๋ฅธ Q, K, V๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ
์๋ฒํธ๋ ์๋ฅผ ์ด๋ ๊ฒ ํด๊ฒฐํ๋ค.
multi-head๋ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ณต์ ํ๋ฉด ์๋๋ค! ๊ทธ๋ฌ๋ฏ๋ก ์ด๋ถ๋ถ์ ํจ์คํ์.
shared-attention :์ฌ๋ฌ ์ธต์ผ๋ก ๊ตฌ์ฑ๋ layer๋ค์ด ๋ชจ๋ ๊ฐ์ attention ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ์!
shared-ffn : ๋ชจ๋ layer๋ค์ output layer๊ฐ ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ์
all-shared : ๋ชจ๋ ๊ฐ์๊ฑธ๋ก ์ฌ์ฉํ์
์๋ฅผ ๋ณด๋ฉด ๋น์ฐํ ์ฑ๋ฅ์ ๋จ์ด์ก์ง๋ง ํ๋ฝํญ์ด ๊ทธ๋ ๊ฒ ํฌ์ง ์์ ๋ชจ์ต์ด๋ค.
์๋ฒํธ์ ์ ์ํ ๋ ๋ค๋ฅธ ๊ธฐ๋ฒ์ Sentence Order Prediction. ๊ธฐ์กด์ BERT์์ ์ฌ์ฉ๋๋ pre trained ๊ธฐ๋ฒ์ ๋๊ฐ๊ฐ ์์๋ค. MASK ๋ ๋จ์ด๋ฅผ ๋ง์ถ๋ ๊ฒ๊ณผ ๋ ๊ฐ์ ์ฐ์๋ ๋ฌธ์ฅ์ด ์ค์ ๋ก ๋ฌธ๋งฅ์ ์ด์ด์ง๋ ๋ฌธ์ฅ์ธ์ง๋ฅผ ๋ง์ถ๋ ๊ฒ.
๊ทธ๋ฐ๋ฐ, ๋ฒํธ ์ดํ์ ํ์ ์ฐ๊ตฌ๋ค์์ NSP๊ฐ ๋๋ฌด ์ฌ์ ๊ธฐ ๋๋ฌธ์ ์คํจ์ฑ์ด ์๋ค๋ ์ฃผ์ฅ์ด ๋์๊ณ ์ฌ๋ฌ ์คํ๊ฒฐ๊ณผ์์ NSP๋ฅผ ์ ๊ฑฐํ๋๋ผ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๊ทธ๋ ๊ฒ ํฐ ์ฐจ์ด๊ฐ ์๋ค๋ผ๊ณ ์ง์ ์ ๋ฐ์๋ค.
์๋ฒํธ์์๋ ์คํจ์ฑ์ด ์๋ NSP๋ฅผ ์ ์๋ฏธํ๊ฒ ํ๊ธฐ ์ํด ์ด๋ฅผ ํ์ฅํ๋ค. ๊ธฐ์กด์ "๋ ๋ฌธ์ฅ์ด ์ฐ์์ ์ผ๋ก ๋ฑ์ฅํ๋ ๋ฌธ์ฅ์ธ๊ฐ" ๋ฅผ ํ๋ณํ๋ ๊ฒ์ด ์๋๋ผ ์ค์ ๋ก ์ฐ์์ ์ธ ๋ฌธ์ฅ์์ ๊ฐ์ ธ์์ ์ ์๊ณผ ์ญ์์ผ๋ก ๋ณํํ๋ค ์ด๋ฅผ ํ๋ณํ๋ ๋ฌธ์ ๋ก ๋ณ๊ฒฝํ๋ค.
์ฌ๊ธฐ์ ํต์ฌ์, Negative Sampling์ ๋์ผ๋ฌธ์์ ์ธ์ ๋ฌธ์ฅ์์ ๋ฝ์๋ค๋ ๊ฒ์ด๋ค. ๊ธฐ์กด์ bert์์์ NSP๋ False์ ๋ฌธ์ฅ์์ ๊ฒฝ์ฐ ๋ ๋ฌธ์ฅ์์ ๋ฑ์ฅํ๋ ๋จ์ด๋ค์ด ๋งค์ฐ ์์ดํ ๊ฐ๋ฅ์ฑ์ด ๋์๋ค. ๋ฐ๋ฉด True์ ๋ฌธ์ฅ์์ ๊ฒฝ์ฐ์๋ ๋ ๋ฌธ์ฅ์์ ๋ฑ์ฅํ๋ ๋จ์ด๋ค์ด ๊ฒน์น ๊ฐ๋ฅ์ฑ์ด ๋์๋ค. ๊ทธ๋ ๋ค๋ณด๋ NSP๋ฅผ ํ ๋ ๋ชจ๋ธ์ ๊ณ ์ฐจ์์ ์ธ ํน์ง์ ๋ํด ๋ถ์ํ๊ธฐ ๋ณด๋ค๋ ๋์ผํ ๋จ์ด๋ค์ ๋ฑ์ฅ ํ์ ์ ๋์ ์ ์ฐจ์์ ์ธ ํน์ง์ ์ฌ์ฉํ ๊ฐ๋ฅ์ฑ์ด ๋์๊ณ ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ NSP task๋ฅผ ์ ๊ฑฐํ๋๋ผ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฐ ์ฐจ์ด๊ฐ ์์๋ ๊ฒ. ๊ทธ๋ฌ๋ SOP๋ ๊ณตํต ๋จ์ด์ ๋ฑ์ฅ ํ์๋ง์ผ๋ก๋ ์ด task๋ฅผ ํด๊ฒฐํ ์ ์์ผ๋ฏ๋ก ์ข ๋ ๊ณ ์ฐจ์์ ์ธ ๋ฌธ์ ๋ก ๋ณ๊ฒฝ๋์๋ค๊ณ ๋ณผ ์ ์๋ค.
๊ธฐ์กด์ None๊ณผ NSP๋ ์ฑ๋ฅ์ฐจ์ด๊ฐ ๋ณ๋ก ์๊ฑฐ๋ ์คํ๋ ค None์ด ๋ ๋์ ์ํฉ์ด ๋ฐ์ํ๋๋ฐ, SOP๋ ๋ชจ๋ ๊ฒฝ์ฐ์์ ์ฑ๋ฅ์ด ๋์ ๊ฒ์ ์ ์ ์๋ค.
๋ณ์ข ๋ชจ๋ธ๋ณด๋ค ์๋ฒํธ์ ์ฑ๋ฅ์ด ๋์ ๊ฒ์ ์ ์ ์๋ค.
๋, ๋ชจ๋ธ์ ํฌ๊ธฐ๊ฐ ์ปค์ง๋ฉด ์ฑ๋ฅ์ด ๋ ๋์์ง๋ค.
๋ฒํธ๋ GPT์๋ ๋ค๋ฅธ ํํ๋ก pretrain ํ ๋ชจ๋ธ์ด๋ค. ์ค์ ๋ก Bert์์ ์ฌ์ฉํ MASK ๋๋ GPT์์ ํ์ฉํ Standardํ Language ๋ชจ๋ธ์์ ํ๋ฐ์ง ๋ ๋์๊ฐ๋ค. ๊ธฐ์กด์ mask๋ ๋จ์ด๋ฅผ ๋ค์ ์์ธกํ๋ MLM ์ ๋๊ณ ์ด ์์ธกํ ๋จ์ด์ ๋ํด ์ด ๋จ์ด๊ฐ ์ค์ ๋ก ๋ฌธ์ฅ์ ์๋ ๋จ์ด์ธ์ง ๋๋ ์์ธก๋ ๋จ์ด์ธ์ง๋ฅผ ๊ตฌ๋ณํ๊ฒ ๋๋ ๊ตฌ๋ถ์๊ฐ ์ถ๊ฐ๋์๋ค.
๊ทธ๋์ ์ด ๋ชจ๋ธ์, ๋๊ฐ์ง ๋ชจ๋ธ์ด ์ ๋์ ๊ด๊ณ๋ฅผ ์ด๋ฃจ๋ ์ํ๋ก ํ์ต์ด ์งํ์ด๋๋ค. ์ด idea๋ ๊ธฐ์กด์ Generative adversarial network์์ ์ฐฉ์ํ ๊ฒ. Ground Truth๋ฅผ ์๊ณ ์๊ธฐ ๋๋ฌธ์ ํ์ตํ๊ธฐ ์ฝ๊ณ ์ด๋ฌํ ๊ณผ์ ์ ๋ฐ๋ณตํ๋ฉด์ ๋ชจ๋ธ์ ๊ณ ๋ํ์ํฌ ์ ์๋ค.
์ฌ๊ธฐ์ ํน์ง์ generator๊ฐ ์๋, replaced์ original์ ํ๋ณํ๋ Discriminator๋ฅผ pretrained ๋ชจ๋ธ๋ก ์ฌ์ฉํ๊ฒ ๋๋ค
๊ธฐ์กด ๋ฒํธ๋ชจ๋ธ๋ณด๋ค ๋์ผํ ํ์ต๋์ ๋ํด ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค.
๊ธฐ์กด์ ๋ชจ๋ธ๋ค์ self-attention์ ์ ์ ๋ง์ด ์์ผ๋ฉด์ ์ฑ๋ฅ์ ์ฆ๊ฐ์์ผฐ๊ณ ๊ฒฝ๋ํ ๋ชจ๋ธ์ ์ฐ๊ตฌ ์ถ์ธ๋ ์ด๋ฌํ ํฐ size์ ๋ชจ๋ธ์ด ๊ฐ์ง๋ ์ฑ๋ฅ์ ์ต๋ํ ์ ์งํ๋ฉด์ ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ์ค์ด๊ณ ๊ณ์ฐ์๋๋ฅผ ๋น ๋ฅด๊ฒ ํ๋ ๊ฒ์ ์ด์ ์ ๋ง์ถ๋ค.
๊ทธ๋ฌ๋ฏ๋ก, ํด๋ผ์ฐ๋๋ ๊ณ ์ฑ๋ฅ์ GPU๋ฅผ ์ฌ์ฉํ์ง ์๊ณ ๋ชจ๋ฐ์ผ ํฐ์์๋ ์ฌ์ฉํ ์ ์๋๋ก ํ๋ค.
๊ฒฝ๋ํํ๋ ๋ฐฉ์์ ๋ค์ํ๊ฒ ์กด์ฌํ๋ฏธ๋ ์ฌ๊ธฐ์๋ Distilation์ด๋ผ๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค.
Transformer์ ๊ตฌํ์ฒด๋ฅผ ์ฝ๊ฒ ์ฌ์ฉํ ์ ์๋๋ก ํ huggingface
๋ผ๋ ํ์ฌ์์ ๋ฐํํ ๋ชจ๋ธ์ด๋ค. ์ฌ๊ธฐ์๋ Teacher๋ชจ๋ธ๊ณผ Student ๋ชจ๋ธ์ด ์๋ค. Student๋ชจ๋ธ์ Teacher๋ชจ๋ธ๋ณด๋ค ๋ ์ด์ด์ ์๋ ํ๋ผ๋ฏธํฐ ์๊ฐ ์ ์ ๋ชจ๋ธ์ด๋ค. ์ด Student ๋ชจ๋ธ์ด ๊ฒฝ๋ํ ๋ชจ๋ธ์ ์ด์ ์ ๋ง์ถ ๋ชจ๋ธ์ด๋ค.
Teacher ๋ชจ๋ธ์ด ๊ฐ ์ํ์ค์ ๋ํด ๋ค์์ ์ฌ ๋จ์ด๋ก ์์ธกํ ํ๋ฅ ๋ถํฌ๊ฐ ์กด์ฌํ ๊ฒ์ธ๋ฐ Student ๋ชจ๋ธ์ ์ด ํ๋ฅ ๋ถํฌ๋ฅผ ์ต๋ํ ๋ชจ์ฌํ๋๊ฒ์ด ๋ชฉํ์ด๋ค. ๊ทธ๋์ Student ๋ชจ๋ธ์ Ground Truth๋ Teacher ๋ชจ๋ธ์ ํ๋ฅ ๋ถํฌ์ด๋ค. knowledge distillation ์ด๋ผ๋ ํ ํฌ๋์ ์ฌ์ฉํ ๋ชจ๋ธ
DistillBERT์ฒ๋ผ knowledge distillation ํ ํฌ๋์ ์ฌ์ฉํ์ง๋ง ์ฐจ์ด์ ์ด ์๋ค๋ฉด Distil. ์ ๊ฒฝ์ฐ์๋ ์ต์ข ๊ฒฐ๊ณผ๋ฌผ์ ๋ชจ์ฌํ๋ ค๊ณ ํ๋ค๋ฉด TinyBERT๋ ์ค๊ฐ ๊ฒฐ๊ณผ๋ฌผ๊น์ง๋ ๋ชจ๋ ๋ชจ์ฌํ๋ ค๊ณ ํ๋ค. ๊ทธ๋์ ๊ฐ layer๊ฐ์ hidden state์ attention parameter๊น์ง ๋์ผํ๊ฒ ํ๋ ค๊ณ ํ๋ฉฐ ์ด ๋ MSE๋ฅผ ์ด์ฉํ๋ค.
ํ์ง๋ง, Student ๋ชจ๋ธ์ attention parameter๋ Teacher ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ์ ๋์ผํด์ง๊ธฐ ์ด๋ ต๋ค. ์๋ํ๋ฉด ์ฐจ์์๊ฐ ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ ๋์ผํ๊ฒ ํ๋ค๋ ๊ฐ๋ ์ ์ ๋ฆฝํ์ง ์ด๋ ค์ธ ์ ์๋ค. ๊ทธ๋์ ์ด๋ฅผ ์ํด Teacher ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๊ฐ ํ ๊ฐ์ FC๋ฅผ ์ง๋์ ์ถ์๋ ์ฐจ์์ ๋ฒกํฐ๊ฐ์ ๊ฐ๋๋ก ํ๊ณ Student๊ฐ ์ด ์ถ์๋ ์ฐจ์๊ณผ ๋์ผํ๊ฒ ํ๊ธฐ ์ํ ๋ถ๋ถ์ผ๋ก ํ๋ฉด์ mismatch๋ฅผ ํด๊ฒฐํ๋ค.
์ด FC ์ญ์ ํ์ตํด์ผํ๋ค.
์ต์ ์ฐ๊ตฌ ํ๋ฆ์ ๊ธฐ์กด์ pretraining model๊ณผ ์ง์ ๊ทธ๋ํ๋ผ ๋ถ๋ฆฌ๋ knowledge graph๋ผ๋ ์ธ๋ถ ์ ๋ณด๋ฅผ ์ ๊ฒฐํฉํ๋ ํํ์ด๋ค. ๋ฒํธ๊ฐ ์ธ์ด์ ํน์ฑ์ ์ ์ดํดํ๊ณ ์๋์ง์ ๋ํ ๋ถ์์ด ๋ง์ด ์งํ๋์๋๋ฐ, ๋ฒํธ๋ ์ฃผ์ด์ง ๋ฌธ์ฅ์์๋ ๋ฌธ๋งฅ์ ์ ํ์ ํ๊ณ ๋จ์ด๋ค๊ฐ์ ์ ์ฌ๋๋ ๊ด๊ณ๋ฅผ ์ ํ์ ํ์ง๋ง ์ฃผ์ด์ง ๋ฌธ์ฅ์ ํฌํจ๋์ด ์์ง ์์ ์ถ๊ฐ์ ์ธ ์ ๋ณด๊ฐ ํ์ํ ๊ฒฝ์ฐ์๋ ๊ทธ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ๋ ๋ฅ๋ ฅ์ ์ ๋ณด์ฌ์ฃผ์ง ๋ชปํ๋ค.
๋ง์ฝ, ์ฃผ์ด์ง ๋ฌธ์ฅ์ด ๋ค์๊ณผ ๊ฐ๋ค๊ณ ํ์
๋ ์ ํ ๋ค
ํ ๊ฒฝ์ฐ๋ ๊ฝ์ ์ฌ๊ธฐ ์ํด ํ ๊ฒ์ด๊ณ ๋ ํ ๊ฒฝ์ฐ๋ ์ง์ ์ง๊ธฐ ์ํด ํ ๋ค๊ณ ํ์. "๋ ์ ๋ฌด์์ผ๋ก ํ ์๊น?" ๋ผ๋ ์ง๋ฌธ์ ํ์ ๋ ์ฌ๋์ ๊ฝ์ ๊ฒฝ์ฐ๋ "๋ถ์ฝ", ์ง์ ๊ฒฝ์ฐ๋ "์ค์ฅ๋น" ๋ฑ์ผ๋ก ๋๋ต์ ํ ์ ์๋ ์ด์ ๋ ๋ฌธ์ฅ์์ ์ป๋ ์ ๋ณด๋ฟ๋ง ์๋๋ผ ์ด๋ฏธ ์๊ณ ์๋ ์ธ๋ถ ์ ๋ณด(=์์)์ด ์๊ธฐ ๋๋ฌธ์ด๋ค. ์ธ๊ณต์ง๋ฅ์์์ ์์์ Knowledge Graph๋ผ๋ ํํ๋ก ํํ๋๋ค.
๋ฒํธ๋ ์ธ๋ถ์ง์์ด ํ์ํ ๊ฒฝ์ฐ๋ ์ทจ์ฝ์ ์ ๋ณด์ด๊ธฐ ๋๋ฌธ์ ๊ทธ๋ฌํ ๋ถ๋ถ์ Knowledge Graph๋ก ์ ์ ์ํ๊ณ ์ด๋ฅผ BERT์ ์ ๊ฒฐํฉํด์ ๋ฌธ์ ๋ค์ ์ข ๋ ์ ํ๊ธฐ ์ํ ์ฐ๊ตฌ๊ฐ ์งํ๋๋ค.