(10๊ฐ) Advanced Self-supervised Pre-training Models
210916
GPT-2
๋ณด๋ค ์ต๊ทผ์ ๋์จ ๋ชจ๋ธ์ด๋ค. GPT-1 ๊ณผ ๋ชจ๋ธ ๊ตฌ์กฐ์ ์ธ ์ฐจ์ด๋ ์์ง๋ง ๋ค์๊ณผ ๊ฐ์ ํน์ง์ด ์๋ค.
Transformer ๋ชจ๋ธ์ ๋ ์ด์ด๊ฐ ๋ง์์ก๋ค
์ฌ์ ํ ๋ค์ ๋จ์ด๋ฅผ ์์ธกํ๋ Language Model์ ์ฌ์ฉํ์๋ค.
Training data๋ 40GB ๋ผ๋ ์ฆ๊ฐ๋ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋ค.
์ด ๋ ๋จ์ํ ๊ทธ๋ฅ ๋ฐ์ดํฐ๊ฐ ์๋๋ผ ํ์ง์ด ๋งค์ฐ ์ข์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋ค.
์ฌ๋ฌ down-stream stasks๊ฐ zero-shot setting ์ผ๋ก ๋ชจ๋ ๋ค๋ค์ง ์ ์๋ค๋ ์ ์ ๋ณด์ฌ์ค๋ค.

์ฌ๋์ด ์ด ๋ถ๋ถ(๋นจ๊ฐ์) ์ดํ๋ก ๋งค์ฐ ์์ฐ์ค๋ฝ๊ฒ ๊ธ(ํ๋์)์ ์์ฑํ ๋ชจ์ต
Motivation
๋ชจ๋ ์์ฐ์ด Task๋ค์ด ์ง์์๋ต์ ํํ๋ก ๋ฐ๋ ์ ์๋ค๋ ํต์ฐฐ์ ์ ์ํ๋ค.
์ด์ ์๋ Binary classification์ ๊ฐ์ ๋ถ์๊ณผ How are you ๋ผ๋ ์ง๋ฌธ์ ๋ํ ๋ต๋ณ์ ์์ธกํ๋ ๊ฒ์ด ์๋ก ๋ค๋ฅธ Output layer ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ธฐ ๋๋ฌธ์ ๋ค๋ฅธ Task๋ก ๊ฐ์ฃผ๋์๋ค.
๊ฐ์ ๋ถ์
"Do you think this sentence is positive?"
๋ฌธ๋จ์์ฝ
"What is topic or point on this literature?"
Datasets
๋ฐ์ดํฐ์ ์ ํฌ๊ธฐ๊ฐ ๋งค์ฐ ํฌ๋ฉด์๋ ํ์ง ์ญ์ ์ข์ ์ง์์ ํจ๊ณผ์ ์ผ๋ก ์ ๋ฐฐ์ธ ์ ์๋ค.
์ผ๋ถ๋ ๋ ๋ง์ ์๋ ๋ต๋ณ์ค ์ธ๋ถ๋งํฌ๊ฐ ์๊ณ , ๋ ์ด ๋ต๋ณ์ด ์ข์์๊ฐ 3๊ฐ ์ด์ ๋ฐ์์ ๋ ์ด ์ธ๋ถ๋งํฌ ์ ๊ฒ์๋ฌผ์ ๋ฐ์ดํฐ์ ์ผ๋ก ๋ง๋ค์๋ค.
๋ ๋ง์ ์ง๋ฌธ/๋ต๋ณ ์ฌ์ดํธ
๋ํ, Byte pair encoding์ ์ฌ์ฉํ์ผ๋ฉฐ Layer Normalization์ ์์น๊ฐ ์กฐ๊ธ ๋ฐ๋์๋ค. ๋, ๋ ์ด์ด๊ฐ ์ฌ๋ผ๊ฐ์๋ก ์ ํ๋ณํ์ ์ฌ์ฉ๋๋ ์๋ค์ด 0์ ๊ฐ๊น์์ง๋๋ก ํ๋๋ฐ ์ด๋, ์์ชฝ์ ๋ ์ด์ด์ ์ญํ ์ด ์ค์ด๋ค ์ ์๋๋ก ๋ชจ๋ธ์ ๊ตฌ์ฑํ๋ค.
Question Answering
๋ชจ๋ Task๋ ์ง์์๋ต์ ํํ๋ก ๋ฐ๋ ์ ์๋ค. ์๋๋ ์ฃผ์ด์ง ๋ํํ ์ง์์๋ต ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ Fine tuning ํ๋ ๊ณผ์ ์ ๊ฑฐ์ณ์ผํ๋๋ฐ, ์ด๋ฅผ ํ์ตํ์ง ์๊ณ (=Zero shot setting) ๋ฐ๋ก ์ถ๋ก ํ๋ ์คํ์ ํด๋ณด์๋๋ 55 F1 score๊ฐ ๋์๊ณ fine tuning์ ๊ฑฐ์น๋ 89 F1 score๊ฐ ๋์๋ค.
Summarization
Zero-shot setting์ผ๋ก๋ ์์ฝ์ด ๊ฐ๋ฅํ๋๋ฐ ์ด ์ด์ ๋ GPT-2๋ ์ด์ ๋จ์ด๋ก ๋ท ๋จ์ด๋ฅผ ์์ธกํ๋ค๋ณด๋, ๋ฌธ๋จ์ ๋ง์ง๋ง ๋จ์ด๊ฐ TR ํ ํฐ์ผ๋ก ์์ธกํ ์ ์๋๋ก ์ด๊ธฐ ๋ชจ๋ธ ํ์ต ๋ ๋ฐ์ดํฐ์ ์ ๊ฐ ๋ฌธ์ฅ ๋์ TR ํ ํฐ์ ์ถ๊ฐํ๊ณ (์๋ํ๋ฉด ์์ฝ Task์ ์ํ Fine tuning์ด ๊ทธ๋ ๊ฒ ์ด๋ฃจ์ด์ง) ๋ฐ๋ก ์ด๋ ํ ๋ฐ์ดํฐ์ ์ ์ฒ๋ฆฌ๊ฐ ํ์์์ด ๊ธฐ์กด ํ์ต๋ง์ผ๋ก๋ ์์ฝ์ ์ํํ ์ ์๊ฒ๋๋ค.
Translation
๋ง์ฐฌ๊ฐ์ง๋ก, ๋ฒ์ญ ์ญ์ ์ฃผ์ด์ง ๋ฌธ์ฅ์ด๋ ๋ฌธ๋จ ๋ค์ "they say in french" ๋ฑ์ ๋ถ์ฌ์ฃผ๋ฉด ํด๋น์ธ์ด(์ฌ๊ธฐ์๋ ๋ถ์ด)๋ก ์ ๋ฒ์ญํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
GPT-3
GPT-2 ๋ฅผ ๋ ๊ฐ์ ํ ๋ชจ์ต. ๊ธฐ์กด ๋ชจ๋ธ์ ๊ตฌ์กฐ๋ฅผ ๋ฐ๊พธ์ง ์์๊ณ ํจ์ฌ ๋ง์ ๋ฐ์ดํฐ์ , ํจ์ฌ ๊น์ ๋ ์ด์ด, ํจ์ฌ ๋ง์ ๋ฐฐ์น ์ฌ์ด์ฆ๋ฅผ ์ ์ฉํด์ ์ฑ๋ฅ์ ๋ง์ด ๋์ด์ฌ๋ ธ๋ค.

GPT-3๋ 2020๋ ์ ์ธ๊ณต์ง๋ฅ์ผ๋ก ์ ๋ช ํ ํํ NeruIPS ์์ Best Paper ์์ ๋ฐ์๋๋ฐ ๊ทธ ์ด์ ๋ ๋ค์๊ณผ ๊ฐ์ ๋๋ผ์ด ์ ์ ๋ณด์ฌ์คฌ๊ธฐ ๋๋ฌธ์ด๋ค.
Language Models are Few-Shot Learners
๊ธฐ์กด์ GPT-2 ๊ฐ ๋ณด์ฌ์ค Zero-shot ์ธํ ์์์ ๊ฐ๋ฅ์ฑ์ ๋ง์ด ๋์ด์ฌ๋ ธ๋ค.

์์ด๋ฅผ ๋ถ์ด๋ก ๋ฒ์ญํ๋ Task๋ฅผ ์ด๋ ํ fine tuning ์์ด ์งํํ๋ ๋ชจ์ต.

one shot์ ์ด์ ๋ํด ์์๋ฅผ ๋ฑ ํ๋ฒ๋ง ์ ๊ณตํด์ฃผ๋ ๊ฒ
๋ฒ์ญ์ ์ํ ํ์ต ๋ฐ์ดํฐ๋ก ๋ฑ ํ์๋ง ์ ๊ณตํ๋๋ฐ, ์ด๋ฌํ ๋ฐ์ดํฐ์ ํ์ต์ ์ํด ๋ชจ๋ธ์ ๋ ์ด์ด๋ฅผ ๋ณ๊ฒฝํ๊ฑฐ๋ ํ๋ ๊ฒ์ ์ผ์ ํ์ง ์๊ณ ๊ธฐ์กด ๋ฐ์ดํฐ์ ๋ชจ์์ผ๋ก ์ฌ์ฉํ๋ค.
Zero-shot ์ธํ ๋ณด๋ค ํจ์ฌ ์ฑ๋ฅ์ด ์ฆ๊ฐํ๋ค.

one-shot ๋ณด๋ค ์ฑ๋ฅ์ด ๋ ํฅ์ํ๋ค.
๋ฐ์ดํฐ๋ฅผ "๋์ ์ผ๋ก" ํ์ตํ๊ณ ์ข์ ์ฑ๋ฅ์ ๋ธ๋ค๋ ์ ์์ GPT-3์ ์ฅ์ ์ ๋ณด์ฌ์ค๋ค.
๋ํ, ๋ชจ๋ธ์ ํฌ๊ธฐ๊ฐ ํฌ๋ฉด ํด์๋ก ๋ชจ๋ธ์ "๋์ ์ ์ ๋ฅ๋ ฅ"์ด ๋น ๋ฅด๊ฒ ์์นํจ์ ์ ์ ์๋ค.

A Lite BERT for Self-supervised Learning of Language Representations
ALBERT ๋ชจ๋ธ์ ๊ธฐ์กด์ ๋ฉ๋ชจ๋ฆฌ๋ ํ์ต ๋น์ฉ์ ๋ํ ์ฅ์ ๋ฌผ์ ์ค์ด๊ณ ์ฑ๋ฅ์ ํฐ ํ๋ฝ ์์ด, ์คํ๋ ค ์ฑ๋ฅ์ ํฅ์ ์ํค๋ ค๊ณ ํ๋ค.
๋, ์๋ก์ด ๋ณํ๋ ํํ์ ๋ฌธ์ฅ๋ ๋ฒจ์ self-supervised learning์ pre-trained task๋ฅผ ์ ์ํ๋ค.
๊ตฌ์ฒด์ ์ผ๋ก ์ดํด๋ณด์.
Factorized Embedding Parameterization
์๋ฒ ๋ฉ ๋ฒกํฐ์ ์ฐจ์์ด ์์ผ๋ฉด ์ํ์ค์ ํน์ง์ ๋ชจ๋ ๋ค ๋ด์๋ด์ง ๋ชปํ๊ฒ๋๊ณ , ๊ทธ๋ ๋ค๊ณ ๋๋ฌด ํฌ๋ฉด ์ฐ์ฐ๋๋ ๋๊ณ ํ๋ผ๋ฏธํฐ ์๋ ์ฆ๊ฐํ๊ฒ๋๋ ๋๋ ๋ง๊ฐ ์์๋ค.
๊ทผ๋ฐ, ์ ์๊ฐํด๋ณด์. ๋ ์ด์ด๋ฅผ ์ฌ์ธต์๊ฒ ์๋๋ค๋ ๊ฒ์ ์ํ์ค์ ์ธ๋ฐํ๊ณ ์ ์๋ฏธํ ํน์ง๋ค์ ํ์ ํ๊ฒ ๋ค๋ ๊ฒ๊ณผ ๊ฐ๋ค. ๊ทธ๋ ๋ค๋ ๊ฒ์ ์ด๋ฌํ ํน์งํ์ ์ด๋ผ๋ ์ญํ ์ ๊น์ ๋ ์ด์ด์๊ฒ ๋งก๊ธฐ๊ณ , ๊ฐ ๋จ์ด๊ฐ ๊ฐ์ง๋ ์๋ฒ ๋ฉ ๋ฒกํฐ์ ์ฐจ์์ ์กฐ๊ธ ์ค์ด๋ค์ด๋ ๊ด์ฐฎ์ง ์์๊น ๋ผ๋ ์์ด๋์ด๊ฐ ์๊ฒผ๊ณ ์ด๋ฅผ ์ํด ์๋ฒ ๋ฉ ์ฐจ์์ ์ค์ด๋ ์ธ์ฌ์ดํธ๋ฅผ ์๋ฒํธ๊ฐ ์ ์ํ๊ฒ๋๋ค.
๊ธฐ์กด์๋ ๋ค์๊ณผ ๊ฐ์ด ๋จ์ด์ ์๋ฒ ๋ฉ์ positinal ๋ฒกํฐ๋ฅผ ๋ํด์ ๋ ์ด์ด์์ ์ฌ์ฉํ๋ค๋ฉด,

์๋ฒํธ์์๋ ๋ ์ด์ด์ ์ ๋ ฅ์ผ๋ก ์ฃผ๋ ์ฐจ์์ ๊ธฐ์กด๊ณผ ๋์ผํ์ง๋ง, ๋ ์ด์ด์ ์ ๋ ฅ ์ฐจ์๊ณผ ์๋ฒ ๋ฉ์ ์ฐจ์์ ๊ฐ์ ํ์๊ฐ ์๋๋ก ํ๋ ์์ด๋์ด๋ฅผ ์ ์ํ๋ค.

๋ฒํธ๋ ์๋ฒ ๋ฉ ๋ฒกํฐ์ ์ฐจ์์ด 4์ธ๋ฐ ๋นํด ์๋ฒํธ๋ 2์ ์ฐจ์์ ๊ฐ์ง๋ ๊ฒ์ ๋ณผ ์ ์๋ค.
2์ ์ฐจ์์ ๊ฐ์ง ์๋ฒ ๋ฉ ๋ฒกํฐ์ ๊ฐ์ค์น W(E x H shape)๋ฅผ ๊ณฑํด์ 4์ฐจ์์ ๋ฒกํฐ๋ฅผ ์์ฑํ๊ฒ ๋๋ค.
์ด ๋ฐฉ๋ฒ์ด ์ค์ ๋ก ํ๋ผ๋ฏธํฐ ์๋ฅผ ์ค์ฌ์ฃผ์์๊น?

Vocab size๊ฐ 500์ด๊ณ , attention layer์์ ์ฌ์ฉ๋์ด์ผ ํ๋ ์ฐจ์์ด 100์ด๋ผ๊ณ ํ์.
๋ฒํธ(์ผ์ชฝ)๋ 500*100 = 50,000 ๊ฐ์ ํ๋ผ๋ฏธํฐ๊ฐ ํ์ํ๋ค
์๋ฒํธ(์ค๋ฅธ์ชฝ)์ 500*15 + 15*100 = 9,000 ๊ฐ์ ํ๋ผ๋ฏธํฐ๊ฐ ํ์ํ๋ค.
์ด๋ฌํ ๋ฐฉ๋ฒ์ผ๋ก ํ์ํ ํ๋ผ๋ฏธํฐ ์๋ฅผ ์ค์ด๊ฒ ๋๋ฉฐ ์ด๋ Vocab size์ hidden dimension์ด ์ฆ๊ฐํ ์๋ก ํ๋ผ๋ฏธํฐ ์์ ์ฐจ์ด๊ฐ ๋๊ฒ๋๋ค.
์๋ฒํธ๊ฐ ๊ฐ์ง๋ ์ฅ์ ์ ๋ ์๋ค. ๊ธฐ์กด์ ํธ๋์คํฌ๋จธ์์ ๋ ์ด์ด๋ฅผ ๊น๊ฒ ์์์๋ก ํ๋ผ๋ฏธํฐ ์๊ฐ ์ ์ ๋์ด๋๋ ์ด์ ๋ ๋ค์๊ณผ ๊ฐ๋ค.
multi-head attention์ ์ ์ฉํ๋ฉด์ ๊ฐ๊ฐ์ head๊ฐ ๋ ๋ฆฝ์ ์ด๋ฉด์ ์๋ก ๋ค๋ฅธ Q, K, V๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ
์ฌ๋ฌ ์ธต์ผ๋ก ๊ตฌ์ฑ๋ layer ์ญ์ ๋ชจ๋ ๋ค๋ฅธ Q, K, V๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ
์๋ฒํธ๋ ์๋ฅผ ์ด๋ ๊ฒ ํด๊ฒฐํ๋ค.
multi-head๋ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ณต์ ํ๋ฉด ์๋๋ค! ๊ทธ๋ฌ๋ฏ๋ก ์ด๋ถ๋ถ์ ํจ์คํ์.
shared-attention :์ฌ๋ฌ ์ธต์ผ๋ก ๊ตฌ์ฑ๋ layer๋ค์ด ๋ชจ๋ ๊ฐ์ attention ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ์!
shared-ffn : ๋ชจ๋ layer๋ค์ output layer๊ฐ ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ์
all-shared : ๋ชจ๋ ๊ฐ์๊ฑธ๋ก ์ฌ์ฉํ์

์๋ฅผ ๋ณด๋ฉด ๋น์ฐํ ์ฑ๋ฅ์ ๋จ์ด์ก์ง๋ง ํ๋ฝํญ์ด ๊ทธ๋ ๊ฒ ํฌ์ง ์์ ๋ชจ์ต์ด๋ค.
์๋ฒํธ์ ์ ์ํ ๋ ๋ค๋ฅธ ๊ธฐ๋ฒ์ Sentence Order Prediction. ๊ธฐ์กด์ BERT์์ ์ฌ์ฉ๋๋ pre trained ๊ธฐ๋ฒ์ ๋๊ฐ๊ฐ ์์๋ค. MASK ๋ ๋จ์ด๋ฅผ ๋ง์ถ๋ ๊ฒ๊ณผ ๋ ๊ฐ์ ์ฐ์๋ ๋ฌธ์ฅ์ด ์ค์ ๋ก ๋ฌธ๋งฅ์ ์ด์ด์ง๋ ๋ฌธ์ฅ์ธ์ง๋ฅผ ๋ง์ถ๋ ๊ฒ.
๊ทธ๋ฐ๋ฐ, ๋ฒํธ ์ดํ์ ํ์ ์ฐ๊ตฌ๋ค์์ NSP๊ฐ ๋๋ฌด ์ฌ์ ๊ธฐ ๋๋ฌธ์ ์คํจ์ฑ์ด ์๋ค๋ ์ฃผ์ฅ์ด ๋์๊ณ ์ฌ๋ฌ ์คํ๊ฒฐ๊ณผ์์ NSP๋ฅผ ์ ๊ฑฐํ๋๋ผ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๊ทธ๋ ๊ฒ ํฐ ์ฐจ์ด๊ฐ ์๋ค๋ผ๊ณ ์ง์ ์ ๋ฐ์๋ค.
์๋ฒํธ์์๋ ์คํจ์ฑ์ด ์๋ NSP๋ฅผ ์ ์๋ฏธํ๊ฒ ํ๊ธฐ ์ํด ์ด๋ฅผ ํ์ฅํ๋ค. ๊ธฐ์กด์ "๋ ๋ฌธ์ฅ์ด ์ฐ์์ ์ผ๋ก ๋ฑ์ฅํ๋ ๋ฌธ์ฅ์ธ๊ฐ" ๋ฅผ ํ๋ณํ๋ ๊ฒ์ด ์๋๋ผ ์ค์ ๋ก ์ฐ์์ ์ธ ๋ฌธ์ฅ์์ ๊ฐ์ ธ์์ ์ ์๊ณผ ์ญ์์ผ๋ก ๋ณํํ๋ค ์ด๋ฅผ ํ๋ณํ๋ ๋ฌธ์ ๋ก ๋ณ๊ฒฝํ๋ค.
์ฌ๊ธฐ์ ํต์ฌ์, Negative Sampling์ ๋์ผ๋ฌธ์์ ์ธ์ ๋ฌธ์ฅ์์ ๋ฝ์๋ค๋ ๊ฒ์ด๋ค. ๊ธฐ์กด์ bert์์์ NSP๋ False์ ๋ฌธ์ฅ์์ ๊ฒฝ์ฐ ๋ ๋ฌธ์ฅ์์ ๋ฑ์ฅํ๋ ๋จ์ด๋ค์ด ๋งค์ฐ ์์ดํ ๊ฐ๋ฅ์ฑ์ด ๋์๋ค. ๋ฐ๋ฉด True์ ๋ฌธ์ฅ์์ ๊ฒฝ์ฐ์๋ ๋ ๋ฌธ์ฅ์์ ๋ฑ์ฅํ๋ ๋จ์ด๋ค์ด ๊ฒน์น ๊ฐ๋ฅ์ฑ์ด ๋์๋ค. ๊ทธ๋ ๋ค๋ณด๋ NSP๋ฅผ ํ ๋ ๋ชจ๋ธ์ ๊ณ ์ฐจ์์ ์ธ ํน์ง์ ๋ํด ๋ถ์ํ๊ธฐ ๋ณด๋ค๋ ๋์ผํ ๋จ์ด๋ค์ ๋ฑ์ฅ ํ์ ์ ๋์ ์ ์ฐจ์์ ์ธ ํน์ง์ ์ฌ์ฉํ ๊ฐ๋ฅ์ฑ์ด ๋์๊ณ ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ NSP task๋ฅผ ์ ๊ฑฐํ๋๋ผ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฐ ์ฐจ์ด๊ฐ ์์๋ ๊ฒ. ๊ทธ๋ฌ๋ SOP๋ ๊ณตํต ๋จ์ด์ ๋ฑ์ฅ ํ์๋ง์ผ๋ก๋ ์ด task๋ฅผ ํด๊ฒฐํ ์ ์์ผ๋ฏ๋ก ์ข ๋ ๊ณ ์ฐจ์์ ์ธ ๋ฌธ์ ๋ก ๋ณ๊ฒฝ๋์๋ค๊ณ ๋ณผ ์ ์๋ค.

๊ธฐ์กด์ None๊ณผ NSP๋ ์ฑ๋ฅ์ฐจ์ด๊ฐ ๋ณ๋ก ์๊ฑฐ๋ ์คํ๋ ค None์ด ๋ ๋์ ์ํฉ์ด ๋ฐ์ํ๋๋ฐ, SOP๋ ๋ชจ๋ ๊ฒฝ์ฐ์์ ์ฑ๋ฅ์ด ๋์ ๊ฒ์ ์ ์ ์๋ค.

๋ณ์ข ๋ชจ๋ธ๋ณด๋ค ์๋ฒํธ์ ์ฑ๋ฅ์ด ๋์ ๊ฒ์ ์ ์ ์๋ค.
๋, ๋ชจ๋ธ์ ํฌ๊ธฐ๊ฐ ์ปค์ง๋ฉด ์ฑ๋ฅ์ด ๋ ๋์์ง๋ค.
ELECTRA: Efficiently Learning an Encoder that Classifies Token Replacements Accurately
๋ฒํธ๋ GPT์๋ ๋ค๋ฅธ ํํ๋ก pretrain ํ ๋ชจ๋ธ์ด๋ค. ์ค์ ๋ก Bert์์ ์ฌ์ฉํ MASK ๋๋ GPT์์ ํ์ฉํ Standardํ Language ๋ชจ๋ธ์์ ํ๋ฐ์ง ๋ ๋์๊ฐ๋ค. ๊ธฐ์กด์ mask๋ ๋จ์ด๋ฅผ ๋ค์ ์์ธกํ๋ MLM ์ ๋๊ณ ์ด ์์ธกํ ๋จ์ด์ ๋ํด ์ด ๋จ์ด๊ฐ ์ค์ ๋ก ๋ฌธ์ฅ์ ์๋ ๋จ์ด์ธ์ง ๋๋ ์์ธก๋ ๋จ์ด์ธ์ง๋ฅผ ๊ตฌ๋ณํ๊ฒ ๋๋ ๊ตฌ๋ถ์๊ฐ ์ถ๊ฐ๋์๋ค.
๊ทธ๋์ ์ด ๋ชจ๋ธ์, ๋๊ฐ์ง ๋ชจ๋ธ์ด ์ ๋์ ๊ด๊ณ๋ฅผ ์ด๋ฃจ๋ ์ํ๋ก ํ์ต์ด ์งํ์ด๋๋ค. ์ด idea๋ ๊ธฐ์กด์ Generative adversarial network์์ ์ฐฉ์ํ ๊ฒ. Ground Truth๋ฅผ ์๊ณ ์๊ธฐ ๋๋ฌธ์ ํ์ตํ๊ธฐ ์ฝ๊ณ ์ด๋ฌํ ๊ณผ์ ์ ๋ฐ๋ณตํ๋ฉด์ ๋ชจ๋ธ์ ๊ณ ๋ํ์ํฌ ์ ์๋ค.
์ฌ๊ธฐ์ ํน์ง์ generator๊ฐ ์๋, replaced์ original์ ํ๋ณํ๋ Discriminator๋ฅผ pretrained ๋ชจ๋ธ๋ก ์ฌ์ฉํ๊ฒ ๋๋ค

๊ธฐ์กด ๋ฒํธ๋ชจ๋ธ๋ณด๋ค ๋์ผํ ํ์ต๋์ ๋ํด ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค.
Light-weight Models
๊ธฐ์กด์ ๋ชจ๋ธ๋ค์ self-attention์ ์ ์ ๋ง์ด ์์ผ๋ฉด์ ์ฑ๋ฅ์ ์ฆ๊ฐ์์ผฐ๊ณ ๊ฒฝ๋ํ ๋ชจ๋ธ์ ์ฐ๊ตฌ ์ถ์ธ๋ ์ด๋ฌํ ํฐ size์ ๋ชจ๋ธ์ด ๊ฐ์ง๋ ์ฑ๋ฅ์ ์ต๋ํ ์ ์งํ๋ฉด์ ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ์ค์ด๊ณ ๊ณ์ฐ์๋๋ฅผ ๋น ๋ฅด๊ฒ ํ๋ ๊ฒ์ ์ด์ ์ ๋ง์ถ๋ค.
๊ทธ๋ฌ๋ฏ๋ก, ํด๋ผ์ฐ๋๋ ๊ณ ์ฑ๋ฅ์ GPU๋ฅผ ์ฌ์ฉํ์ง ์๊ณ ๋ชจ๋ฐ์ผ ํฐ์์๋ ์ฌ์ฉํ ์ ์๋๋ก ํ๋ค.
๊ฒฝ๋ํํ๋ ๋ฐฉ์์ ๋ค์ํ๊ฒ ์กด์ฌํ๋ฏธ๋ ์ฌ๊ธฐ์๋ Distilation์ด๋ผ๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค.
DistillBERT
Transformer์ ๊ตฌํ์ฒด๋ฅผ ์ฝ๊ฒ ์ฌ์ฉํ ์ ์๋๋ก ํ huggingface ๋ผ๋ ํ์ฌ์์ ๋ฐํํ ๋ชจ๋ธ์ด๋ค. ์ฌ๊ธฐ์๋ Teacher๋ชจ๋ธ๊ณผ Student ๋ชจ๋ธ์ด ์๋ค. Student๋ชจ๋ธ์ Teacher๋ชจ๋ธ๋ณด๋ค ๋ ์ด์ด์ ์๋ ํ๋ผ๋ฏธํฐ ์๊ฐ ์ ์ ๋ชจ๋ธ์ด๋ค. ์ด Student ๋ชจ๋ธ์ด ๊ฒฝ๋ํ ๋ชจ๋ธ์ ์ด์ ์ ๋ง์ถ ๋ชจ๋ธ์ด๋ค.

Teacher ๋ชจ๋ธ์ด ๊ฐ ์ํ์ค์ ๋ํด ๋ค์์ ์ฌ ๋จ์ด๋ก ์์ธกํ ํ๋ฅ ๋ถํฌ๊ฐ ์กด์ฌํ ๊ฒ์ธ๋ฐ Student ๋ชจ๋ธ์ ์ด ํ๋ฅ ๋ถํฌ๋ฅผ ์ต๋ํ ๋ชจ์ฌํ๋๊ฒ์ด ๋ชฉํ์ด๋ค. ๊ทธ๋์ Student ๋ชจ๋ธ์ Ground Truth๋ Teacher ๋ชจ๋ธ์ ํ๋ฅ ๋ถํฌ์ด๋ค. knowledge distillation ์ด๋ผ๋ ํ ํฌ๋์ ์ฌ์ฉํ ๋ชจ๋ธ
TinyBERT
DistillBERT์ฒ๋ผ knowledge distillation ํ ํฌ๋์ ์ฌ์ฉํ์ง๋ง ์ฐจ์ด์ ์ด ์๋ค๋ฉด Distil. ์ ๊ฒฝ์ฐ์๋ ์ต์ข ๊ฒฐ๊ณผ๋ฌผ์ ๋ชจ์ฌํ๋ ค๊ณ ํ๋ค๋ฉด TinyBERT๋ ์ค๊ฐ ๊ฒฐ๊ณผ๋ฌผ๊น์ง๋ ๋ชจ๋ ๋ชจ์ฌํ๋ ค๊ณ ํ๋ค. ๊ทธ๋์ ๊ฐ layer๊ฐ์ hidden state์ attention parameter๊น์ง ๋์ผํ๊ฒ ํ๋ ค๊ณ ํ๋ฉฐ ์ด ๋ MSE๋ฅผ ์ด์ฉํ๋ค.
ํ์ง๋ง, Student ๋ชจ๋ธ์ attention parameter๋ Teacher ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ์ ๋์ผํด์ง๊ธฐ ์ด๋ ต๋ค. ์๋ํ๋ฉด ์ฐจ์์๊ฐ ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ ๋์ผํ๊ฒ ํ๋ค๋ ๊ฐ๋ ์ ์ ๋ฆฝํ์ง ์ด๋ ค์ธ ์ ์๋ค. ๊ทธ๋์ ์ด๋ฅผ ์ํด Teacher ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๊ฐ ํ ๊ฐ์ FC๋ฅผ ์ง๋์ ์ถ์๋ ์ฐจ์์ ๋ฒกํฐ๊ฐ์ ๊ฐ๋๋ก ํ๊ณ Student๊ฐ ์ด ์ถ์๋ ์ฐจ์๊ณผ ๋์ผํ๊ฒ ํ๊ธฐ ์ํ ๋ถ๋ถ์ผ๋ก ํ๋ฉด์ mismatch๋ฅผ ํด๊ฒฐํ๋ค.
์ด FC ์ญ์ ํ์ตํด์ผํ๋ค.
Fusing Knowledge Graph into Language Model
์ต์ ์ฐ๊ตฌ ํ๋ฆ์ ๊ธฐ์กด์ pretraining model๊ณผ ์ง์ ๊ทธ๋ํ๋ผ ๋ถ๋ฆฌ๋ knowledge graph๋ผ๋ ์ธ๋ถ ์ ๋ณด๋ฅผ ์ ๊ฒฐํฉํ๋ ํํ์ด๋ค. ๋ฒํธ๊ฐ ์ธ์ด์ ํน์ฑ์ ์ ์ดํดํ๊ณ ์๋์ง์ ๋ํ ๋ถ์์ด ๋ง์ด ์งํ๋์๋๋ฐ, ๋ฒํธ๋ ์ฃผ์ด์ง ๋ฌธ์ฅ์์๋ ๋ฌธ๋งฅ์ ์ ํ์ ํ๊ณ ๋จ์ด๋ค๊ฐ์ ์ ์ฌ๋๋ ๊ด๊ณ๋ฅผ ์ ํ์ ํ์ง๋ง ์ฃผ์ด์ง ๋ฌธ์ฅ์ ํฌํจ๋์ด ์์ง ์์ ์ถ๊ฐ์ ์ธ ์ ๋ณด๊ฐ ํ์ํ ๊ฒฝ์ฐ์๋ ๊ทธ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ๋ ๋ฅ๋ ฅ์ ์ ๋ณด์ฌ์ฃผ์ง ๋ชปํ๋ค.
๋ง์ฝ, ์ฃผ์ด์ง ๋ฌธ์ฅ์ด ๋ค์๊ณผ ๊ฐ๋ค๊ณ ํ์
๋ ์ ํ ๋ค
ํ ๊ฒฝ์ฐ๋ ๊ฝ์ ์ฌ๊ธฐ ์ํด ํ ๊ฒ์ด๊ณ ๋ ํ ๊ฒฝ์ฐ๋ ์ง์ ์ง๊ธฐ ์ํด ํ ๋ค๊ณ ํ์. "๋ ์ ๋ฌด์์ผ๋ก ํ ์๊น?" ๋ผ๋ ์ง๋ฌธ์ ํ์ ๋ ์ฌ๋์ ๊ฝ์ ๊ฒฝ์ฐ๋ "๋ถ์ฝ", ์ง์ ๊ฒฝ์ฐ๋ "์ค์ฅ๋น" ๋ฑ์ผ๋ก ๋๋ต์ ํ ์ ์๋ ์ด์ ๋ ๋ฌธ์ฅ์์ ์ป๋ ์ ๋ณด๋ฟ๋ง ์๋๋ผ ์ด๋ฏธ ์๊ณ ์๋ ์ธ๋ถ ์ ๋ณด(=์์)์ด ์๊ธฐ ๋๋ฌธ์ด๋ค. ์ธ๊ณต์ง๋ฅ์์์ ์์์ Knowledge Graph๋ผ๋ ํํ๋ก ํํ๋๋ค.
๋ฒํธ๋ ์ธ๋ถ์ง์์ด ํ์ํ ๊ฒฝ์ฐ๋ ์ทจ์ฝ์ ์ ๋ณด์ด๊ธฐ ๋๋ฌธ์ ๊ทธ๋ฌํ ๋ถ๋ถ์ Knowledge Graph๋ก ์ ์ ์ํ๊ณ ์ด๋ฅผ BERT์ ์ ๊ฒฐํฉํด์ ๋ฌธ์ ๋ค์ ์ข ๋ ์ ํ๊ธฐ ์ํ ์ฐ๊ตฌ๊ฐ ์งํ๋๋ค.
Last updated
Was this helpful?