BERT
210926~
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
๋ฒํธ์ ์ง์ญ ๋ฐ ์์ญ์ ์์ฑํ๋ค. ์ง์ญ๊ณผ ์์ญ์ด ๋ง๊ตฌ๋ง๊ตฌ ์์ฌ์์ง๋ง, ์ด๋ ๋ค๋ฅธ ์ง์ญ๊ณผ ๋ค๋ฅด๊ฒ ์ต๋ํ ํ๊ตญ์ด๋ง์ ๋ป์ผ๋ก ๋ น์ด๋ ค๊ณ ํ๋ค. ๊ทธ๋์ representation ๊ฐ์ ๋จ์ด๊ฐ "ํํ", "ํน์ง" ๋ฑ์ผ๋ก ํด์๋์ด ์์ด๋จ์ด์ ์ต์ํ ์ฌ๋๋ค์ ์ด์ํ ์ ์์ง๋ง ์ต์ํ ์ฌ๋๋ค์ ์ง์ญ ๋ฐ ์์ญ์ผ๋ก ์์ฑ๋ ์ด ๊ธ์ ๋ณผ ์ผ์ด ์์ ๋ฏ ํ๋ค. ์ฌ์ํ ๋ฌธ์ฅ๊น์ง๋ ์๋ฒฝํ ํด์ํ๋ ค๊ณ ํ๊ณ , ๊ฐ๋ ์ด ํ์ํ๊ฑฐ๋ ํด์์ด ๋ถ์์ฐ์ค๋ฝ๊ฒ ๋๋ ๋ถ๋ถ์๋ ๋ถ๊ฐ ์ค๋ช ์ ์ถ๊ฐํ๋ค.
Abstract
ํธ๋์คํฌ๋จธ์ ์๋ฐฉํฅ ์ธ์ฝ๋ ํํ์ ์๋ฏธํ๋, ์๋ก์ด ์ธ์ด ๋ชจ๋ธ ๋ฒํธ์ ๋ํด ์๊ฐํ๊ฒ ๋ค. ์ต๊ทผ ์ธ์ด ๋ชจ๋ธ๊ณผ ๋ฌ๋ฆฌ ๋ฒํธ๋ ๊น์ ์๋ฐฉํฅ ์ธ์ด ํํ ๋ชจ๋ธ์ ํ์ตํ๋ค. ์ด๋ ๋ชจ๋ ๋ ์ด์ด์ ์ด์ ๊ทธ๋ฆฌ๊ณ ์ดํ context ์ ๋ณด๋ฅผ ๊ณต๋์ผ๋ก ์ฌ์ฉํ ๋ผ๋ฒจ๋ง ๋์ง ์์ ํ ์คํธ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ์ฌ์ ํ์ต๋ ๋ฒํธ๋ชจ๋ธ์ ์ง์์๋ต์ด๋ ์ธ์ด ์ถ๋ก ๋ฑ์ ๊ด๋ฒ์ํ task๋ค์ ๋ํด์ ์ค์ง์ ์ธ ํน์ task ๊ธฐ๋ฐ ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ์ํ ๋ณํ์์ด ๋จ ํ๋์ ์ถ๊ฐ์ ์ธ output layer๋ง์ ์ฌ์ฉํด์ fine tuning ํ๋๋ ์ ๊ธฐ๋ก์ ์ธ์ธ ์ ์์๋ค.
๋ฒํธ๋, ๊ฐ๋ ์ ์ผ๋ก๋ ๊ฐ๋จํ์ง๋ง ์คํ์ ์ผ๋ก(=๊ฒฝํ์ ์ผ๋ก) ๋งค์ฐ ๊ฐ๋ ฅํ๋ค. 11๊ฐ์ NLP task์ ์์ด์ ์ ๊ธฐ๋ก์ ๊ฐฑ์ ํ๊ณ ์ด ๋์ GLUE ์ ์๋ ์ต๊ณ ์ ์์์ 7.7% ์ฐจ์ด๋๋ 80.5%์ด๊ณ MultiNLI ์ ํ๋๋ ์ต๊ณ ์ ์์์ 4.6% ์ฐจ์ด๋๋ 86.7%๋ฅผ ๋ฌ์ฑํ๋ค. ๋ SQuAD v1.1 ์ง์์๋ต์์๋ 1.5์ ์ฐจ์ด๋๋ 93.2์ F1 Score๋ฅผ ๋ฌ์ฑํ๊ณ SQuAD v2.0์ ๋ํด์๋ 5.1์ ์ฐจ์ด๋๋ 83.1์ F1 Score๋ฅผ ๋ฌ์ฑํ๋ค.
1 Introduction
์ฌ๋ฌ NLP task๋ฅผ ๊ฐ์ ํ๋๋ฐ ํจ์จ์ ์ธ ์ธ์ด ๋ชจ๋ธ ์ฌ์ ํ์ต ๋ฐฉ๋ฒ์ด ์ฌํ๊น์ง ์๊ฐ๊ฐ ๋์๋ค (Dai and Le, 2015; Peters et al., 2018a; Radford et al., 2018; Howard and Ruder, 2018). ๋, ์์ฐ์ด ์ถ๋ก ๊ณผ ๊ฐ์ ๋ฌธ์ฅ ๋ ๋ฒจ์ ๋ํด์๋ ์ด๋ฌํ ๋ ผ๋ฌธ(Bowman et al., 2015; Williams et al., 2018)์์ ์๊ฐ๋์๊ณ ์ ์ฒด์ ์ผ๋ก ๋ฌธ์ฅ์ ๋ถ์ํ๋ฉด์ ์ป์ด์ง๋ ๋ฌธ์ฅ ๊ฐ์ ๊ด๊ณ๋ฅผ ์์ธกํ๋ ๊ฒ์ด ๋ชฉํ์ธ ์์ญ์ ์ด ๋ ผ๋ฌธ(Dolan and Brockett, 2005)์์ ์๊ฐ๋์๋ค. ๋, fine-grained ๋ฐฉ์์ผ๋ก ํ ํฐ ๋ ๋ฒจ์์ ์ํํ๋ ๊ฐ์ฒด๋ช ์ธ์์ด๋ ์ง์์๋ต๊ณผ ๊ฐ์ task๋ ์ด ๋ ผ๋ฌธ((Tjong Kim Sang and De Meulder, 2003; Rajpurkar et al., 2016)์์ ์๊ฐ๋์๋ค.
NER, Named Entity Recognition, ๊ฐ์ฒด๋ช ์ธ์์ ์ด๋ฆ์ ์๋ฏธํ๋ ๋จ์ด๊ฐ ์ด๋ค ์ ํ์ธ์ง๋ฅผ ์ธ์ํ๋ task์ด๋ค. ์๋ฅผ ๋ค์ด '์๋ฏผ์ด๋ 2021๋ ์๋ ์์๊ฒผ๋ค'์์ ์๋ฏผ:์ฌ๋, 2021๋ :์๊ฐ ์ผ๋ก ๋ถ๋ฅํ๋ค.
fine-grained๋ ์ธ๋ถ์ ์ผ๋ก ๋ถ๋ฅํ๋ ์์ ์ ์๋ฏธํ๋ฉฐ, ๋ถ์ํด์ผ ํ๋ task๋ค์ด ๋น์ทํ ํน์ง์ ๊ฐ์ก์ ๋ ์ฌ์ฉํ๋ค. ๋๋น๋๋ ์๋ฏธ๋ก๋ coarse-grained๊ฐ ์๋ค.
down stream task์ ๋ํด์ ์ธ์ด ํํ ๋ชจ๋ธ์ ์ฌ์ ํ์ตํ๋ ๋ ๊ฐ์ง ์ ๋ต์ด ์๋ค. ๋ฐ๋ก feature-based ์ fine-tuning ์ด๋ค. feature-based ์ ๊ทผ๋ฒ์ ์๋ชจ์์ ์ฌ์ฉ๋์์ผ๋ฉฐ ํน์ task์ ๊ธฐ๋ฐํ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ๋ค. ์ด ๊ตฌ์กฐ๋ ๋ชจ๋ธ์ pre-train ํ ๋ ์ถ๊ฐ์ ์ธ ํน์ง๋ค์ ํฌํจํ๊ฒ๋๋ค. fine-tuning ์ ๊ทผ๋ฒ์ ํธ๋์คํฌ๋จธ์์ ์ฌ์ฉ๋์์ผ๋ฉฐ ๊ธฐ๋ณธ์ ์ธ ํน์ ํ๋ผ๋ฏธํฐ๋ง์ ์ฌ์ฉํ๊ณ , ์ดํ์ down stream task์ ๋ํด์ ๊ฐ๋จํ๊ฒ fine tuning ํ๋ ๊ณผ์ ์์ ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ํ์ตํ๊ฒ ๋๋ค. ๋๊ฐ์ง ์ ๊ทผ๋ฒ์ ์ผ๋ฐ์ ์ธ ์ธ์ด ํํ์ ํ์ตํ๊ธฐ ์ํด ๋จ๋ฐฉํฅ ์ธ์ด ๋ชจ๋ธ์ ์ฌ์ฉํ๋ pre training์ด ์ด๋ฃจ์ด์ง๋ ๊ณผ์ ์์๋ ๋์ผํ ๋ชฉ์ ์ ์ง๋๋ค.
down stream task๋ ๊ตฌ์ฒด์ ์ผ๋ก ํด๊ฒฐํ๊ณ ์ ํ๋ ๋ฌธ์ ๋ค์ ์๋ฏธํ๋ค. ์์ธํ ์ด์ผ๊ธฐํด๋ณด์. ์ต๊ทผ ์์ฐ์ด ์ฒ๋ฆฌ๋ถ์ผ์์๋ pre-trained ๋ ๋ชจ๋ธ์ fine-tuning ํ๋ ๋ฐฉ์์ ์ฌ์ฉํด์ ๊ตฌ์ฒด์ ์ธ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋๋ฐ ์ด ๋ ์ด๋ฌํ ๋ฐฉ์์ผ๋ก ํด๊ฒฐํ๊ณ ์ ํ๋ ๋ฌธ์ ๋ค์ down stream task๋ผ๊ณ ์ง์นญํ๋ ๊ฒ
์ฐ๋ฆฌ๋ ์ด๋ฌํ ํ ํฌ๋๋ค์ด ์ฌ์ ํ์ต์ผ๋ก ํํํ ์ ์๋ ๋ฅ๋ ฅ์ ์ ํํ๋ค๊ณ ์๊ฐํ๋ค. ํนํ fine-tuning์์๋ ๋๋์ฑ ์ ํ๋๋ค. ์ฃผ๋ ํ๊ณ์ ์ ํ์ค ์ธ์ด ๋ชจ๋ธ๋ค์ด ๋จ๋ฐฉํฅ์ ์ด๋ผ๋ ๊ฒ์ด๊ณ ์ด๋ ์ฌ์ ํ์ต๋ ๋ ๋ชจ๋ธ์ ์์ธก์ ์ ํ์ ์ฃผ๊ฒ๋๋ค. ์๋ฅผ ๋ค์ด OpenAI์ GPT ๋ชจ๋ธ๊ฐ์ ๊ฒฝ์ฐ ๊ฐ๋ฐ์๋ค์ ์ผ์ชฝ์์ ์ค๋ฅธ์ชฝ์ ๋ฐฉํฅ์ผ๋ก ์ค๊ณ๋ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ๊ณ ์ด๋ ํธ๋์คํฌ๋จธ์ฒ๋ผ ๋ชจ๋ ํ ํฐ๋ค์ด ์ผ์ชฝ์์ ์ค๋ฅธ์ชฝ์ผ๋ก๋ง ์ ๊ทผ๊ฐ๋ฅํ๊ฒ ๋์๋ค. ๋ฌธ์ฅ ๋ ๋ฒจ task์์ ์ด๋ฌํ ์ ํ์ด ๋จ์์์ผ๋ฉด ์ต์ ์ ํด๋ต์ ๋ด๋์ ์ ์๊ณ ์ง์ ์๋ต๊ณผ ๊ฐ์ ํ ํฐ ๋ ๋ฒจ์ task์ ์ ์ฉ๋๋ fine tuning์์ ์์ข์ ์ํฅ์ ์ค ์ ์๋ค. ์ด๊ฒ์ด ์๋ฐฉํฅ์ ์ผ๋ก context ์ ๋ณด๋ฅผ ํฌํจํด์ผ ํ๋ ์ค์ํ ์ด์ ์ด๋ค.
์ด ๋ ผ๋ฌธ์์ ์ฐ๋ฆฌ๋ BERT๋ผ๋ fine tuning์ ๊ธฐ๋ฐํ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. BERT๋ ์๋ฐฉํฅ ์ธ์ฝ๋ ํํ from ํธ๋์คํฌ๋จธ ์ ์ฝ์ด์ด๋ค. ๋ฒํธ๋ ์ด๋ฌํ ๋จ๋ฐฉํฅ์ masked ๋ชจ๋ธ์ด ๊ฐ์ง๋ ํ๊ณ์ ์ (Taylor, 1953)์ Cloze task์์ ์๊ฐ์ ๋ฐ์ ์ฌ์ฉํ MLM, masked language model ๋ฐฉ๋ฒ์ ์ฌ์ฉํด์ ์ํ์ํจ๋ค. MLM์ ์ฃผ์ด์ง ์ ๋ ฅ์ ๋ํด ๋ฌด์์๋ก ํ ํฐ์ ์ ํด์ ๋ง์คํนํ๋ค. ์ด๋ ์ฃผ๋ณ ๋ฌธ๋งฅ์ ํตํด ๋ง์คํน๋ ๋จ์ด๋ฅผ ์์ธกํ๋ ค๋ ๋ชฉ์ ์ฑ์ ๊ฐ์ง๊ณ ์๋ค. ๊ธฐ์กด ์ผ์ชฝ์์ ์ค๋ฅธ์ชฝ์ ๋ฐฉํฅ๋ง์ ๊ฐ์ง๊ณ pre trainํ๋ ๊ฒ๊ณผ๋ ๋ฌ๋ฆฌ MLM์ ๋ชฉ์ ์ ์์ชฝ์์ ์ป๋ ๋ฌธ๋งฅ์ ํน์ง์ ์๋ ๊ฒ์ ๊ฐ๋ฅํ๊ฒ ํ๊ฒํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ฅผ ์ํด ๊น์ ์๋ฐฉํฅ ํธ๋์คํฌ๋จธ๋ฅผ ์ฌ์ฉํ๋ค. ๊ฒ๋ค๊ฐ MLM์ "๋ค์ ๋ฌธ์ฅ ์์ธก" task๋ฅผ ์ํํ ์ ์๋๋ก ์ ํ ๋ฌธ์ฅ์์ ํน์ง(=representations)์ ํ์ตํ๋ค. ์ด ๋ ผ๋ฌธ์ ํ์ ์๋ ๋ค์๊ณผ ๊ฐ๋ค.
์ฌ๊ธฐ์ fuse๋ blend์ ์๋ฏธ๋ก ์ฌ์ฉ๋์๋ค๊ณ ์๊ฐํ๋ค.
์ธ์ด ํน์ง์ ๋ํด ์๋ฐฉํฅ์ผ๋ก ํ์ตํ๋ ๊ฒ์ด ์ค์ํจ์ ์ฆ๋ช ํ๋ค. ๋จ๋ฐฉํฅ์ ์ฌ์ฉํ๋ Radford et al. (2018)์ ๋ฌ๋ฆฌ ๋ฒํธ๋ MLM์ ์ฌ์ฉํด์ ๊น์ ์๋ฐฉํฅ ํํ์ด ๊ฐ๋ฅํ๋ค. ์ด๋ ์ผ์ชฝ์์ ์ค๋ฅธ์ชฝ ๋๋ ์ค๋ฅธ์ชฝ์์ ์ผ์ชฝ์ ๋ฐฉํฅ์ ๊ฐ์ง LM, Language Model๋ค์ด ๋ ๋ฆฝ์ ์ผ๋ก ์๊ฒ ์ฐ๊ฒฐ๋ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ๋ Peters et al. (2018a)์๋ ๋์กฐ์ ์ธ ๊ฒฐ๋ก ์ด๋ค.
ํน์ task๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์ ์ด task๋ฅผ ์ํ ๊ตฌ์กฐ๋ฅผ ์ด๋์ ๋ ๋ง์ ธ์ผ ํ๋๋ฐ,(=heavily-engineered) ๋ฒํธ๋ ์ฌ์ ํ์ต๋ ํน์ง์ด ์ด๋ฐ ํ์์ฑ์ ์ค์ฌ์ค ์ ์๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ๋ฌธ์ฅ ๋ ๋ฒจ ๋๋ ํ ํฐ ๋ ๋ฒจ์ ๋ํ ๋ง์ task์์ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ด๊ณ ์๋ ๋ชจ๋ธ๋ค์ fintuning ํ ๋ฒํธ๋ ์ฌ๋ฌ task๋ฅผ ์ํด ํน์ ๊ตฌ์กฐ๋ฅผ ํ์ฑํ๋ ๊ฒ๋ณด๋ค ๋ ์ข์ ์ฑ๋ฅ์ ๋ธ๋ค.
๋ฒํธ๋ 11๊ฐ์ NLP task์ ์ ๊ธฐ๋ก์ ์ธ์ ๋ค. ์ด ์ฝ๋์ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ https://github.com/ google-research/bert.์์ ๋ณผ ์ ์๋ค.
2 Related Work
๋งค์ฐ ์์ ๋ถํฐ ์ผ๋ฐ์ ์ธ ์ธ์ด ๋ชจ๋ธ์ ์ฌ์ ํ์ตํ๊ธฐ ์์ํ๋๋ฐ ์ด๋ ๊ฒ ํํ ์ฌ์ฉ๋๋ ์ ๊ทผ๋ฒ์ ๋ํด์ ๊ฐ๋จํ๊ฒ ๋ค๋ค๋ณด์
2.1 Unsupervised Feature-based Approaches
์ฌ๋ฌ task์์ ์๋ํ๋๋ก ๋จ์ด๋ค์ ํน์ง์ ํ์ตํ๋ ๊ฒ์ ์ต๊ทผ ์์ญ๋ ๋์ ํ๋ฐํ๊ฒ ์ฐ๊ตฌ๋ ๋ถ์ผ์ด๋ค. ์ ๊ฒฝ๋ง์ ์ฌ์ฉํ์ง ์๊ณ ๋ (Brown et al., 1992; Ando and Zhang, 2005; Blitzer et al., 2006)์์. ๊ทธ๋ฆฌ๊ณ ์ ๊ฒฝ๋ง์ ์ฌ์ฉํด (Mikolov et al., 2013; Pennington et al., 2014)์์ ์ฐ๊ตฌ๋์๋ค. ์ฌ์ ํ์ต๋ ์๋ ์๋ฒ ๋ฉ์ ํตํฉ๋(=๊ฑฐ์ ์๋ฒ ๋ฉ์ ๋ชจ๋ ์ธ์ด๋ชจ๋ธ์ด ์ฌ์ฉํ๋ค๋ ๋ป) NLP ์์คํ ์ ํ๋์ ์ธ ๋ถ๋ถ ์ค ํ๋์ด๋ฉฐ ์๋ฒ ๋ฉ์ ํ์ตํ๋๋ฐ์ ๋๋๋ฌ์ง ๋ฐ์ ์ ๊ฐ์ ธ์๋ค. ์๋ฒ ๋ฉ ๋ฒกํฐ๋ฅผ ์ฌ์ ํ์ตํ๊ธฐ ์ํด ์ข์ฐ๋ฐฉํฅ์ ์ธ์ด๋ชจ๋ธ๋ค์ด ์ฌ์ฉ๋์๊ณ (Mnih and Hinton, 2009) ์ฌ๋ฐ๋ฅด์ง ์์ ๋จ์ด๋ก๋ถํฐ ์ฌ๋ฐ๋ฅธ ๋จ์ด๋ฅผ ๊ฒฐ์ ํ๋ ๋ชฉ์ ์ ๋๊ณ ๋ ์ข์ฐ๋ฐฉํฅ์ ์ธ์ด๋ชจ๋ธ์ด ์ฌ์ฉ๋์๋ค. (Mikolov et al., 2013).
์ด๋ฌํ ์ ๊ทผ๋ค์ ๋ฌธ์ฅ ์๋ฒ ๋ฉ(Kiros et al., 2015; Logeswaran and Lee, 2018)์ด๋ ๋ฌธ๋จ ์๋ฒ ๋ฉ(Le and Mikolov, 2014)๊ณผ ๊ฐ์ ์ ์ ์ธ๋ฐํ task๋ค์ ์ผ๋ฐํ๋์ด์๋ค. ๋ฌธ์ฅ์ ํน์ง์ ํ์ตํ๊ธฐ์ํด์ ์ด์ ์ ์ฐ๊ตฌ๋ค์ ๋ค์ ๋ฌธ์ฅ์ผ๋ก ์ฌ ํ๋ณด๋ค์ ์ ์ ํ๊ฑฐ๋(Jernite et al., 2017; Logeswaran and Lee, 2018), ์ข์ฐ ๋ฐฉํฅ์ ์ธ์ด๋ชจ๋ธ๋ก ์ด์ ๋ฌธ์ฅ์ ํน์ง์ ํตํด ๋ค์ ๋ฌธ์ฅ์ ์์ฑํ์ผ๋ฉฐ(Kiros et al., 2015), ์คํ ์ธ์ฝ๋์์ ์ด๋ฌํ ๋ชฉ์ ์ ์คํ(=derived, ํ์ํ๋ค)ํ๋ ค๊ณ ํ๋ค.
ELMO์ ELMO์ ์กฐ์๋ชจ๋ธ๋ค์ ์๋ก ๋ค๋ฅธ์ฐจ์์ผ๋ก ์ ํต์ ์ธ ์๋ ์๋ฒ ๋ฉ์ ์์ฑํ๊ณ ์ ์ฐ๊ตฌํ๋ค. ์ด๋ค์ ๋ฌธ๋งฅ-๊ฐ๊ฐ์ ํน์ง์ ์ข์ฐ๋ฐฉํฅ ๋๋ ์ฐ์ข๋ฐฉํฅ์ ๋ชจ๋ธ์ ํตํด ์ป์ผ๋ ค๊ณ ํ๋ค. ๊ฐ ํ ํฐ์ ๋ฌธ๋งฅ์ ์ธ ํน์ง์ ์ข์ฐ ๋๋ ์ฐ์ข ๋ฐฉํฅ์ ํน์ง์ ์ฐ๊ฒฐ๋ก ๊ฒฐ์ ํ๋ค. ์ด๋ฌํ ๋ฌธ๋งฅ์ ์ธ ์๋ ์๋ฒ ๋ฉ์ ๊ธฐ์กด์ ํน์ task์๋ง ์ ์ฉ๋๋ ๊ตฌ์กฐ๋ค๊ณผ ํตํฉํ์ ๋ ELMO๋ ํน์ ์ฃผ์ NLP task ์์ ์ต๊ณ ์ฑ์ ์ ์ป์๋ค. ์ง์ ์๋ต, ๊ฐ์ ๋ถ์, ๊ฐ์ฒด๋ช ์ธ์๋ฑ์ด ์ด์ ์ํ๋ค. Melamud et al. (2016) ๋ ผ๋ฌธ์ ๋ฌธ๋งฅ์ ์ธ ํน์ง์ ํ์ตํ ๋ ์์ชฝ์ ๋ฌธ๋งฅ์ผ๋ก ๋ถํฐ ํ ๋จ์ด๋ฅผ ์์ํ๋ LSTMs์ ํตํด ํ์ตํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ELMO๋ ์ด์ ๋น์ทํ์ง๋ง feature-basedํ์ง๋ง ๊น์ ์๋ฐฉํฅ์ ์๋์๋ค. Fedus et al. (2018)๋ cloze task๊ฐ ํ ์คํธ ์์ฑ ๋ชจ๋ธ์ ์ผ๋ฐํ ์ฑ๋ฅ์ ๊ฐ์ ํ ์ ์๋ค๊ณ ํ๋ค.
์ด๋ฒ ๋ฌธ๋จ์์๋ ๋ ผ๋ฌธ ์ธ๊ธ์ ํ์ง ์์๋ค.
cloze task๋ 1953๋ Taylor ๋ ผ๋ฌธ์์ ์ธ๊ธ๋ ๊ฒ์ผ๋ก ํ๋ ๋๋ ์ฌ๋ฌ๊ฐ์ ๋จ์ด๊ฐ ํ ๋ฌธ์ฅ์์ ์ ๊ฑฐ๋๊ณ ํ์์ด ์ด ์ ๊ฑฐ๋ ๋จ์ด๋ฅผ ์์ธกํ๋ ๋ฌธ์ ์๋ค.
2.2 Unsupervised Fine-tuning Approaches
feature-based ๋ฐฉ๋ฒ์ ์ ์ฉํ ์ฒซ๋ฒ์งธ ์ฐ๊ตฌ๋ ์๋ ์๋ฒ ๋ฉ๋ง์ ์ฌ์ ํ์ตํ๋ค. (Collobert and Weston, 2008).
๋งค์ฐ ์ต๊ทผ์๋ ๋ฌธ์ฅ ๋๋ ๋ฌธ์๋ฅผ ์ธ์ฝ๋ฉํ ๋ ๋ฌธ๋งฅ์ ์ธ ํน์ง์ ๊ฐ์ง ํ ํฐ๋ค์ ์์ฑํ๋๋ฐ ์ด๊ฒ๋ค์ ๋ผ๋ฒจ๋ง๋์ง ์์ ํ ์คํธ์์ ํ์ตํ๊ณ downstream task์์ ์ง๋ํ์ต์ผ๋ก fine tuned ํ๋ค (Dai and Le, 2015; Howard and Ruder, 2018; Radford et al., 2018). ์ด๋ฐ ์ ๊ทผ๋ฒ์ ์ฅ์ ์ pre trainํ ๋ ์ ์ ํ๋ผ๋ฏธํฐ ์๋ก๋ ๊ฐ๋ฅํ๋ค๋ ๊ฒ. ์ด๋ฐ ์ฅ์ ๋๋ฌธ์ GPT๋ ์ ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๊ณ ๋ GLUE ๋ฐ์ดํฐ์ ์ ๋ง์ task์์ ์ต๊ณ ์ฑ์ ์ ๋ผ ์ ์์๋ค. ์ข์ฐ ๋ฐฉํฅ ์ธ์ด๋ชจ๋ธ์ด๋ ์คํ ์ธ์ฝ๋๋ ๋ค์๊ณผ ๊ฐ์ ๋ชจ๋ธ๋ค์ pre training ํ๊ธฐ์ํด ์ฌ์ฉ๋์๋ค (Howard and Ruder, 2018; Radford et al., 2018; Dai and Le, 2015).
objective๋ฅผ ์ด๋ป๊ฒ ํด์ํ๋ฉด ์ข์๊น๊ฐ ๊ณ ๋ฏผ์ด๋ค. ์ฌ์ค ์ง์ญํ๋ฉด ๋ชฉ์ ์ ๋์ด๊ฒ ์ง.
๋ฉํ ๋๊ณผ ์ด์ผ๊ธฐํด๋ณธ ๊ฒฐ๊ณผ. ๋ชจ๋ธ์ ํฐ ํน์ง์ด๋ ์กฐ๊ฑด ์ ๋๋ก ์๊ฐํ๋ฉด ๋๋ค๊ณ ํ๋ค. LTR์ด๋ RTL ๋๋ Bidirection ๋ฑ์ ๋ฐฉํฅ์ ์ธ ์กฐ๊ฑด์ด๋, ๋ชจ๋ธ ๋ ์ด์ด ๋ด๋ถ์์ ์ฌ์ฉํ๋ ๋ชฉ์ ํจ์ ์ ๋๋ก ์๊ฐํ ์ ์๋ค๊ณ ํ๋ค
2.3 Transfer Learning from Supervised Data
์์ฐ์ด ์ถ๋ก ์ด๋ ๊ธฐ๊ณ ๋ฒ์ญ๊ณผ ๊ฐ์ด ์ง๋ํ์ต task์ ๋ฐฉ๋ํ ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ ํจ์จ์ ์ธ ๋ฒ์ญ task๋ฅผ ์ํ ์ฐ๊ตฌ๋ ์์๋ค. ์ปดํจํฐ ๋น์ ์ฐ๊ตฌ๋ ์ฌ์ ํ์ต๋ ๋ํ ๋ชจ๋ธ์ ์ ์ด ํ์ต์ ์ค์์ฑ์ ์ฆ๋ช ํด์๋ค. ์ด๋ฌํ ์ฆ๋ช ์ ์ด๋ฏธ์ง๋ท์ pre trainํ๊ณ ์ด๋ฅผ fine tuningํ๋ ํจ์จ์ ์ธ ๋ฐฉ๋ฒ์์ ์ฆ๋ช ๋์๋ค.
3 BERT
๋ฒํธ์ ๋ฒํธ์ ์์ธํ ๊ตฌํ์ ๋ํด ์๊ฐํ๊ฒ ๋ค. ํฐ ๊ตฌ์กฐ๋ ๋ ๊ฐ์ง ๊ณผ์ ์ผ๋ก ์ด๋ฃจ์ด์ ธ์๋ค. pre-training๊ณผ fine-tuning. ์ฌ์ ํ์ต์์๋ ์ฌ๋ฌ๊ฐ์ง tasks์์ ์๋ํ ์ ์๋๋ก ๋ชจ๋ธ์ unlabeled ๋ฐ์ดํฐ๋ฅผ ํ์ตํ๋ค. fint tuning์์๋ ๋ฒํธ๋ ์ ์ผ๋จผ์ ์ฌ์ ํ์ต๋ ํ๋ผ๋ฏธํฐ๋ค๋ก ์ด๊ธฐํํ๊ณ ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ค์ downstream task์ ๋ง์ถ์ด ๋ฏธ์ธ์กฐ์ ํ๊ฒ๋๋ค. ๊ฐ๊ฐ์ task๋ค์ ๋๊ฐ์ ํ๋ผ๋ฏธํฐ๋ค๋ ์ฌ์ ํ์ต๋์ด ์ด๊ธฐํ๋์์์ง๋ผ๋ ๊ฐ๊ฐ์ task๋ค์ ๋ํด์ ๊ฐ๋ณ์ ์ผ๋ก ์ฒ๋ฆฌ๋๋ค. ์๋ฅผ ๋ค์ด Figure 1์์๋ ์ง์์๋ต์ task์ ํ ์๋ก ๋ค์๋๋ฐ ์ฌ๊ธฐ์ ๋ฒํธ์ ์๋ ์์๋ฅผ ๋ณด์ฌ์ค๋ค.
๋ฒํธ ํน์ ์ ํน์ง์ ์๋ก ๋ค๋ฅธ task๋ค์ ๋ํด ํ๋์ ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ๋ค๋ ๊ฒ์ด๋ค. ๋ฌผ๋ก pre-trained ๊ตฌ์กฐ์ fine-tuning์ ๊ฑฐ์น ๊ตฌ์กฐ์๋ ์ต์์ ์ฐจ์ด๋ ์๋ค.
Figure 1 : ๋ฒํธ์ ์ ์ฒด์ ์ธ ์ฌ์ ํ์ต๊ณผ ๋ฏธ์ธ์กฐ์ ๊ณผ์ ์ด๋ค. output layer๋ฅผ ์ ์ธํ๊ณ ๋ ์ฌ์ ํ์ต๊ณผ ๋ฏธ์ธ์กฐ์ ์์ ๋์ผํ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ๋ค. ์๋ก ๋ค๋ฅธ task์ ๋๊ฐ์ ์ฌ์ ํ์ต ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ก ์ด๊ธฐํํ๋ค. fine-tuning ์์๋ ๋ชจ๋ ํ๋ผ๋ฏธํฐ๊ฐ fine tuned ๋๋ค. CLS ํ ํฐ์ ํน๋ณํ ์๋ฏธ๋ฅผ ์ง๋๋๋ฐ, ๋ชจ๋ input ๋ฌธ์ฅ ์์ ์ถ๊ฐ๋๋ค. ๊ทธ๋ฆฌ๊ณ SEP ํ ํฐ์ ์๋ฅผ ๋ค๋ฉด ์ง๋ฌธ๊ณผ ๋ต๋ณ์ ๊ตฌ๋ถํด์ฃผ๋ ๊ฒ์ฒ๋ผ ํน๋ณํ ๊ตฌ๋ถ์๋ก ์ฌ์ฉ๋๋ค.
Model Architecture
๋ฒํธ์ ๋ชจ๋ธ ๊ตฌ์กฐ๋ ๋ค์ค ๋ ์ด์ด์ ์๋ฐฉํฅ ํธ๋์คํฌ๋จธ ์ธ์ฝ๋๋ฅผ ์ฌ์ฉํ๋ค. ์ด ์ธ์ฝ๋๋ Vaswani et al. (2017) ์์ ๊ตฌํ๋ ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํ๊ณ ์ด๋ tensor2tensor library์ ๊ณต๊ฐ๋์ด์๋ค. ํธ๋์คํฌ๋จธ์ ์ฌ์ฉ์ด ๋์ธ๊ฐ ๋์๊ณ ์ฐ๋ฆฌ๊ฐ ์ฌ์ฉํ ํธ๋์คํฌ๋จธ๋ ์๋์ ๊ฒ๊ณผ ๊ฑฐ์ ๋์ผํ๊ธฐ ๋๋ฌธ์ ์ด๋ฌํ ๋ชจ๋ธ์ ์ ๋ฐ์ ์ธ ๋ฐฐ๊ฒฝ๊ณผ ๊ตฌ์กฐ๋ฅผ ๋๋ถ๋ถ ์๋ตํ ๊ฒ์ด๋ฉฐ ๋ ์๋ค์๊ฒ๋ ์ ์ ๋ฆฌ๋ Vaswani et al. (2017)๋ฅผ ์ฝ๊ธฐ๋ฅผ ๊ถํ๋ค.
์ด๋ฒ ๋ ผ๋ฌธ์์ ์ฌ์ฉํ ์ฉ์ด๋ฅผ ์ค๋ช ํ๋ ค๊ณ ํ๋ค. ๋ ์ด์ด์ ์๋ L๋ก, ํ๋ ์ฌ์ด์ฆ๋ H๋ก, self attention head์ ์๋ A๋ก ๋ํ๋ธ๋ค. ์ฐ๋ฆฌ๋ ๋๊ฐ์ง ๋ชจ๋ธ ์ฌ์ด์ฆ์ ๋ํด ๋ค๋ฃฐ ๊ฒ์ธ๋ฐ, ํ๋๋ BERT-BASE (L=12, H=768, A=12, Param=100M) ์ด๊ณ ํ๋๋ BERT-LARGE (L=24, H=1024, A=16, Param=340M) ์ด๋ค.
BERT-BASE๋ GPT์ ๋น๊ตํ๊ณ ์ ํ๋ ๋ชฉ์ ์ผ๋ก ๋์ผํ ํฌ๊ธฐ์ ๋ชจ๋ธ๋ก ์์ฑํ๋ค. ๊ทธ๋ ์ง๋ง ๋ฒํธ๋ ์๋ฐฉํฅ self attention์ ์ฌ์ฉํ๊ณ GPT๋ ์ผ์ชฝ์์๋ง ์ ๊ทผ์ด ๊ฐ๋ฅํ ์ ํ์ ์ธ self attention์ ์ฌ์ฉํ๋ ์ฐจ์ด๊ฐ ์๋ค.
Input/Output Representations
๋ฒํธ๊ฐ ๋ค์ํ task๋ฅผ ํด๊ฒฐํ๋๋ก input์ผ๋ก ํ๋์ ๋ฌธ์ฅ ๋๋ ํ ์์ ๋ฌธ์ฅ์ ์ ๋ ฅ๋ฐ๋๋ค. ์ฐ๊ตฌ ๋ด๋ด ๋ฌธ์ฅ์ด๋ผ๋ ๊ฐ๋ ์ด ๋ฑ์ฅํ๋๋ฐ ์ด๋ ๋จ์ํ ์ค์ ์ธ์ด์ ์ธ ๋ฌธ์ฅ์ ์๋ฏธํ๋ค๊ธฐ ๋ณด๋ค๋ ์ฐ์์ ์ธ ํ ์คํธ์ ์์์ ๋ถ๋ถ์ผ๋ก ์ดํดํ๋ฉด ๋๋ค(=์ฐ์๋ ์ํ์ค๋ผ๋ ํํ์ ์ธ ๋ถ๋ถ์ผ๋ก ์ดํดํ๋ผ๋ ๋ป ๊ฐ์) ์ด๋ฌํ ํ ๊ฐ์ ๋๋ ํ ์์ ์ํ์ค์์ ์ป์ token์ ๋ฒํธ์ ์ ๋ ฅํ๊ฒ ๋๋ค.
์ฐ๋ฆฌ๋ 3๋ง๊ฐ์ ํ ํฐ์ ๊ฐ์ง WordPiece ์๋ฒ ๋ฉ์ ์ฌ์ฉํ๋ค. ์ด ๋ ๊ฐ ๋ฌธ์ฅ์ ์ฒซ๋ฒ์งธ ํ ํฐ์ CLS๋ผ๋ ํน๋ณํ ํ ํฐ์ด ์์นํ๋ค. ๋ง์ง๋ง ํ๋ ์คํ ์ดํธ์์ ์ด ํ ํฐ์ ๋ถ๋ฅ ํ์คํฌ๋ฅผ ์ํ ๋ฌธ์ฅ ์ง๊ณ ํน์ง์ผ๋ก ์ฌ์ฉ๋๋ค. ํ ์์ ๋ฌธ์ฅ์ ํ๊ฐ์ ๋ฌธ์ฅ์ผ๋ก ๋ฌถ์ฌ ์๋๋ฐ ์ด๋ฅผ ๊ตฌ๋ณํ๋ ๋ฐฉ๋ฒ์ ๋๊ฐ์ง์ด๋ค. ์ฒซ๋ฒ์งธ๋ ๋ ๋ฌธ์ฅ ์ฌ์ด์ SEP ํ ํฐ์ ์ถ๊ฐํ๋ ๊ฒ. ๋๋ฒ์งธ๋ ํ ํฐ์๋ค๊ฐ A ๋ฌธ์ฅ์ ํ ํฐ์ธ์ง B ๋ฌธ์ฅ์ ํ ํฐ์ธ์ง์ ๋ํ ์ ๋ณด๋ฅผ ์ถ๊ฐํ๋ ๊ฒ์ด๋ค. Figure 1 ์์ E๋ input embedding, CLS ํ ํฐ์ final hidden vector ๋ฅผ C๋ก ๋ํ๋์ผ๋ฉฐ i๋ฒ์งธ input token์ final hidden vector๋ Ti ๋ก ๋ํ๋๋ค.
WordPiece๋ underbar๋ฅผ ์ด์ฉํด์ word๋ฅผ subword๋ก ๋ง๋ค์ด tokenizeํ๋ ๋ถ๋ฅ๊ธฐ์ด๋ค.
์ฃผ์ด์ง ํ ํฐ๊ณผ segment, position embeddings๋ฅผ ํฉ์ฐํด์ ์ ๋ ฅ representation์ ๊ตฌ์ฑํ ์ ์๋ค. ์ด ๊ตฌ์ฑ์ ๋ํ ์๊ฐ์ ์ธ ์๋ฃ๋ Figure 2์์ ๋ณผ ์ ์๋ค.
3.1 Pre-training BERT
ELMO์ GPT-1๊ณผ ๋ฌ๋ฆฌ ์ฐ๋ฆฌ๋ ์ข์ฐ ๋๋ ์ฐ์ข๋ฐฉํฅ์ ๋ชจ๋ธ๋ก ๋ฒํธ๋ฅผ ํ์ต์ํค์ง ์์๋ค. ๋์ ์ ๋ ๊ฐ์ ๋น์ง๋ํ์ต task๋ฅผ ํตํด ํ์ตํ๋ค.
Task #1: Masked LM
์ง๊ด์ ์ผ๋ก ๊น์ ์๋ฐฉํฅ ๋ชจ๋ธ์ ๋จํฅ๋ฐฉ ๋ชจ๋ธ์ด๋ ์ด๋ฌํ ๋ชจ๋ธ๋ค์ ์๊ฒ ์ฐ๊ฒฐํ ๊ฒ๋ณด๋ค ๋ ์ฑ๋ฅ์ด ์ข๋ค๋ ๊ฒ์ ํฉ๋ฆฌ์ ์ด๋ค. ๋ถํํ๊ฒ๋ ์กฐ๊ฑด๋ถ ํ์ค ์ธ์ด ๋ชจ๋ธ์ ๋จ๋ฐฉํฅ์ผ๋ก๋ง ํ์ต์ด๋์๋ค. ๋ฐ๋ฉด์ ์๋ฐฉํฅ์ ๊ฐ๊ฐ์ ๋จ์ด๋ค์ด ์๊ธฐ์์ ์ ๊ฐ์ ์ ์ผ๋ก๋ง ์ฐธ์กฐํ ์ ์๊ฒํ๊ณ ๋ชจ๋ธ์ ํ๊ฒ ๋จ์ด๋ฅผ ๋ค์ธต ๊ตฌ์กฐ์ context๋ฅผ ์ด์ฉํ์ฌ ์ข ๋ ๊ตฌ์ฒด์ ์ผ๋ก ์์ธกํ ์ ์๊ฒ๋๋ค.
๊น์ ์๋ฐฉํฅ ํํ์ ํ์ตํ๊ธฐ ์ํด์ ์ฐ๋ฆฌ๋ ๊ฐ๋จํ๊ฒ ๋ช๋ช ์ ๋ ฅ ํ ํฐ๋ค์ ๋ฌด์์๋ก ๋ง์คํนํ๊ณ ์ด ๋ง์คํน๋ ํ ํฐ์ ์์ธกํ๋ค. ์ด๋ฌํ ๊ณผ์ ์ masked LM, MLM์ด๋ผ๊ณ ํ๋ค. ์ด ๊ฐ๋ ์ (Taylor, 1953)์ ์ธ๊ธ๋ Cloze task๋ฅผ ์ฐธ๊ณ ํ๋ค. ์ฌ๊ธฐ์ mask token์ ํด๋นํ๋ final hidden ๋ฒกํฐ๋ output sofrmax์ ์ ๋ ฅ๋๋ค. ์คํ๊ฒฐ๊ณผ 15%์ ํ ํฐ ๋ง์คํน ๋น์จ์๋ฅผ ์ ์ฉํ๋ ๊ฒ์ด ๊ฐ์ฅ ์ข์๋ค. denosing auto-encoder์๋ ๋ฌ๋ฆฌ ์ ์ฒด์ ์ผ๋ก input์ ์ฌ๊ตฌ์ฑํ๋ ๊ฒ๋ณด๋ค๋ masking๋ ๋จ์ด๋ค์ ์์ธกํ๋ค.
์ด์ ๊ฐ์ด ์๋ฐฉํฅ ๋ชจ๋ธ์ ๊ตฌ์ฑํ์ง๋ง [MASK] ํ ํฐ์ด fine tuning ์์๋ ์กด์ฌํ์ง ์๊ธฐ ๋๋ฌธ์ pre training๊ณผ fine tuning ์ฌ์ด์ ๋ถํฉ์ด ๋ฐ์ํ๋ค. ์ด๋ฌํ ์ฐจ์ด๋ฅผ ์ค์ด๊ธฐ ์ํด masked word๋ฅผ ๋ [MASK] ํ ํฐ์ผ๋ก ๋์ฒดํ์ง๋ ์๋๋ค. ํ์ต ๋ฐ์ดํฐ์์ 15%์ ๋น์จ๋ก ๋ฌด์์๋ก ์์ธก์ ์ฌ์ฉ๋ ํ ํฐ์ผ๋ก ์ง์ ๋๋ค. ์ด ๋ i๋ฒ์งธ ํ ํฐ์ด ์ ํด์ง๋ฉด ์ด ํ ํฐ์ค 80%๋ [MASK] ํ ํฐ์ผ๋ก, 10%๋ random token์ผ๋ก, 10%๋ ๋ณ๊ฒฝํ์ง ์๋๋ค. ๊ทธ ์ดํ cross entropy loss๋ฅผ ๊ฐ์ง๊ณ ์๋ ํ ํฐ์ ์์ธกํ๊ธฐ ์ํด i๋ฒ์งธ ํ ํฐ์ ๋ง์ง๋ง ํ๋ ๋ฒกํฐ T๊ฐ ์ฌ์ฉ๋๋ค. ์ฐ๋ฆฌ๋ ์ด ๊ณผ์ ์ ๋ณํ๋ฅผ C.2 ์์ ๋น๊ตํ ๊ฒ์ด๋ค.
Task #2: Next Sentece Prediction (NSP)
์ง์ ์๋ต์ด๋ ์์ฐ์ด ์ถ๋ก ๊ณผ ๊ฐ์ ์ค์ํ task๋ค์ ๋ ๊ฐ์ ๋ฌธ์ฅ ์ฌ์ด์ ๊ด๊ณ๋ฅผ ํ์ ํ๋ ๊ฒ์ ๊ธฐ๋ฐ์ ๋๋ค. ์ด๋ฌํ ๋ฌธ์ฅ์ ์ธ์ด ๋ชจ๋ธ๋ง์ ์ํด ์ง์ ์ ์ผ๋ก ์ป์ด์ง์ง ์๋๋ค. ๋ฌธ์ฅ ๊ด๊ณ๋ฅผ ํ์ ํ๊ธฐ ์ํ ๋ชจ๋ธ์ ํ์ตํ๊ธฐ ์ํด ์ฐ๋ฆฌ๋ ๋จ์ผ ์ธ์ด(์๋ง ์ฌ๋ฌ ๋๋ผ์ ์ธ์ด๊ฐ ์์ด์ง ์์ ์ด๋ผ๋ ๋ป์ธ ๋ฏ)๋ก ์ด๋ฃจ์ด์ง ๋ง๋ญ์น์์ ๋์ถฉ(=trivially) ๋ง๋ค์ด๋ธ ๋ฌธ์ฅ์ ๊ตฌ๋ถํ๋ ๋ค์ ๋ฌธ์ฅ ์์ธก ๋ฐ์ดํฐ๋ฅผ ํ์ตํ๋ค. ํนํ A์ B๋ฌธ์ฅ์ด ์ ํ๋ ๋ 50%์ ํ๋ฅ ๋ก B๋ ์ ๋ง๋ก A์ ๋ท๋ฌธ์ฅ์ด๊ฑฐ๋ ๋๋ ์๋ฌด๋ ๊ฒ๋ ์์ฑ๋ ๋ฌธ์ฅ์ด๋ค. Figure 1์์ ๋ณผ ์ ์๋ฏ์ด C(=CLS ํ ํฐ)๋ ๋ค์ ๋ฌธ์ฅ์ ์์ธกํ๋ NSP์ ์ฌ์ฉ๋๋ค. ์ด๋ ๊ฒ ๊ฐ๋จํ ๊ตฌ์กฐ์๋ ๋ถ๊ณผํ๊ณ QA์ NLI์์ ์์ฒญ๋ ํจ์จ์ ๋ณด์๋ค. ์ด๋ 5.1์์ ํ์ธํ ์ ์๋ค. NSP task๋ Jernite et al.(2017)๊ณผ, Logeswaran and Lee (2018)์์ ์ฌ์ฉ๋ ํน์ง ํ์ต๊ณผ (=representation-learning objectives) ๋งค์ฐ ๊ด๋ จ์ด ์๋ค. ๊ทธ๋ฌ๋ ์ด์ ์ ์ฐ๊ตฌ์์ ๋ฒํธ๋ end-task ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ๋ฅผ ์ด๊ธฐํํ๊ธฐ์ํด ๋ง์ ์๋ฒ ๋ฉ ์ค ๋ฌธ์ฅ ์๋ฒ ๋ฉ๋ง down-stream task์ ํ๋ผ๋ฏธํฐ๋ก ์ฌ์ฉ๋์๋ค.
Pre-training data
์ฌ์ ํ์ต ๊ณผ์ ์ ๋๋ถ๋ถ์ ๊ธฐ์กด์ ์ธ์ด ๋ชจ๋ธ ์ฌ์ ํ์ต ์ ์ฐจ๋ฅผ ๋ฐ๋ฅธ๋ค. 800M ํฌ๊ธฐ์ BooksCorpus์ 2500M ํฌ๊ธฐ์ English Wikipedia์ ๋ง๋ญ์น๋ฅผ ์ฌ์ ํ์ตํ๋ค. ์ํคํผ๋์์์๋ ํ ์คํธ ๊ตฌ์ ๋ง ๋ฝ์์๊ณ ๊ทธ ์ธ์ ๋ฆฌ์คํธ๋ ํ, ํค๋๋ ๋ฌด์ํ๋ค. ๋ฌธ์๋จ์์ ๋ง๋ญ์น๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ Billion Word Benchmark์ ์๋ ๋ฌธ์ฅ ๋จ์์ ๋ง๋ญ์น๋ฅผ ๋ฝ๋ ๊ฒ๋ณด๋ค ์ํ์ค๊ฐ ๋ ์ฐ์์ (๋ ๊ธธ๊ธฐ)์ด๊ธฐ ๋๋ฌธ์ ๋ ์ค์ํ๋ค.
3.2 Fine-tuning BERT
ํธ๋์คํฌ๋จธ์ self attention ๋ฉ์ปค๋์ฆ์ ๋ฒํธ๊ฐ input๊ณผ output์ ์ ์ ํ ๋ฐ๊พธ๊ฒ ํ๋ฉด์ ์ฌ๋ฌ down-stream task๋ฅผ ๋ค๋ฃฐ ์ ์๋๋ก ํ๊ธฐ ๋๋ฌธ์ fine tuniing์ ์ด๋ ต์ง ์์๋ค(=straightforward). ์ด task๋ค์ด single text์ task์ธ์ง text paris์ task์ธ์ง๋ ์๊ด์๋ค. text pairs๋ก ํด๊ฒฐํด์ผ ํ๋ task๋ค์์๋ ์ผ๋ฐ์ ์ผ๋ก Parikh et al. (2016)๋ Seo et al. (2017)์ฒ๋ผ ์๋ฐฉํฅ cross attention์ ์ ์ฉํ๊ธฐ ์ง์ ์ text pair๋ฅผ ๋ ๋ฆฝ์ ์ผ๋ก ์ธ์ฝ๋ฉํ๋ค๋ ๊ฒ์ด๋ค. ๊ทธ๋์ ๋ฒํธ๋ ๋ ๋จ๊ณ(text pair๋ฅผ ๋ ๋ฆฝ์ ์ผ๋ก ์ธ์ฝ๋ฉ ํ๋ ๊ฒ๊ณผ ์๋ฐฉํญ cross attention์ ์ ์ฉํ๋ ๊ฒ)๋ฅผ ํตํฉํด์ self attention ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํ๋ ค๊ณ ํ๋ค. ๋ ๋ฌธ์ฅ๊ฐ์ ์ป์ด์ง๋ ์๋ฐฉํฅ cross attention์ผ๋ก ์ฐ๊ฒฐ๋ ๋ ๋ฌธ์ฅ์ ํจ์จ์ ์ผ๋ก ์ธ์ฝ๋ฉํ๋ ค๊ณ ํ๋ค.
๊ฐ task ๋ง๋ค ์ฐ๋ฆฌ๋ ๊ฐ๋จํ๊ฒ ํน์ input๊ณผ output์ ๋ฒํธ๋ก ์ ๋ ฅํด์ฃผ๊ธฐ๋ง ํ๋ฉด ๋์๊ณ ์์์ ์ฒ์๋ถํฐ ๋๊น์ง ๋ชจ๋ ํ๋ผ๋ฏธํฐ๊ฐ fine tuning ๋์๋ค. ์ฌ์ ํ์ตํ ๋ ์ ๋ ฅ๋๋ ๋ฌธ์ฅ A์ B๋ ๋ค์ ์ค ํ๋์ ํน์ง์ ๊ฐ์ง ์ ์๋ค.(=์ ์ฌํ๋ค์๋ ์๋ฏธ๋ฅผ ์์ญ) 1) ๋ฌธ๋จ์์์ ๋ ๋ฌธ์ฅ ์ 2) ํจ์์์ ๊ฐ์ค๊ณผ ์ ์ 3) ์ง์์๋ต์์ ์ง๋ฌธ ์ 4) ํ ์คํธ ๋ถ๋ฅ๋ ๋ฌธ์ฅ ํ๊น ์์์ degenerate text-0 pair ์ถ๋ ฅ์์ token์ ํน์ง์ ๋ฌธ์ฅ ํ๊น ์ด๋ ์ง์์๋ต ๊ฐ์ token level์ task๋ฅผ ์ฒ๋ฆฌํ๋ output layer๋ก ์ ๋ ฅ๋๋ค. ๊ทธ๋ฆฌ๊ณ CLS ํ ํฐ์ ํจ์๋ ๊ฐ์ ๋ถ์๊ฐ์ ๋ถ๋ฅ๋ฅผ ์ํ output layer๋ก ์ ๋ ฅ๋๋ค.
4๋ฒ ๊ฐ์ ๊ฒฝ์ฐ๋ ๊ธฐ์กด text-text์์ single text ์ฒด์ ๋ก ๋ณํํ๋ฉด์ text-๊ณต์งํฉ ๊ผด์ด ๋์๊ณ ์ด๋ฌํ ๋ชจ์์ ํดํํ๋ค(=degenerate)๋ ์๋ฏธ๋ก ์ธ๊ธํ ๊ฒ ๊ฐ๋ค.
์ฌ์ ํ์ต๊ณผ ๋น๊ตํ๋ฉด fine tuning์ ๋น๊ต์ ๋น์ฉ์ด ๋ ๋ค. ์ด ๋ ผ๋ฌธ์์๋ ๋ชจ๋ ๊ฒฐ๊ณผ๋ TPU๋ก๋ ๋ง์ผ๋ฉด 1์๊ฐ, GPU๋ก๋ ๋ช์๊ฐ์ด ๊ฑธ๋ ค์ ๋์ผํ ์ฌ์ ํ์ต ๋ชจ๋ธ์ ์ฌ๊ตฌ์ฑํ ์ ์๋ค. 4์ฅ์์๋ ๊ตฌ์ฒด์ ์ธ task๋ค์ ๋ํ ์ธ๋ถ์ฌํญ์ ์ค๋ช ํ๋ค. ์์ธํ ๋ด์ฉ์ A.5 ๋ฅผ ์ฐธ์กฐํ์.
4 Experiment
11๊ฐ์ง NLP task์ ๋ํ ๋ฒํธ์ fine tuning ๊ฒฐ๊ณผ๋ค์ ์๊ฐํ๋ค.
4.1 GLUE
The General Language Understanding Evaluation, GLUE benchmark๋ ๋ค์ํ ์์ฐ์ด ์ธ์ง task ๋ชจ์์ง์ด๋ค. GLUE dataset์ ์ธ๋ถ์ฌํญ์ ๋ถ๋ก B.1์ ์๋ค.
GLUE๋ฅผ fine tune ํ๊ธฐ ์ํด์ 3์ฅ์์ ๋งํ๊ฒ์ฒ๋ผ input sequence(single์ด๋ pair๋ ) ๋ฅผ ์ฌ์ฉํ ๊ฒ์ด๊ณ ๋ง์ง๋ง ์ฒซ๋ฒ์งธ input token CLS์ ํด๋นํ๋ hidden vector C๋ฅผ ์งํฉ ํํ์ฒด๋ก ๋ฅผ ์ฌ์ฉํฉ๋๋ค. fine tuning์ ํ ๋ ๋ถ๋ฅ ๋ ์ด์ด์ ์ฌ์ฉ๋๋ K * H ํฌ๊ธฐ์ W ํ๋ผ๋ฏธํฐ๊ฐ ๋ฑ์ฅํ๋ค. ์ด ๋ K๋ ๋ผ๋ฒจ์ ์๋ฅผ ์๋ฏธํ๋ค. ์ฐ๋ฆฌ๋ C์ W์ ๊ณฑ์ log-softmax๋ฅผ ํด์ loss๋ฅผ ๊ณ์ฐํ๋ค.
์งํฉ ํํ์ฒด๋ผ๋ ์๋ฏธ๋ ๋ฌธ์ฅ์ ๋ํ ์ ์ฒด์ ์ธ ์ ๋ณด๋ฅผ ๋ด๊ณ ์๊ธฐ ๋๋ฌธ์ ์ด๋ฐ ๋น์ (?)๋ฅผ ์ฌ์ฉํ๋ค.
๋ชจ๋ GLUE tasks์ ๋ํด์ ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ 3epoch์ fine tune์ ๊ฑฐ์ณค๊ณ ์ด ๋์ ๋ฐฐ์น๋ 32์ด๋ค. ๊ฐ๊ฐ์ task์์ ์ต์ ์ ํ์ต๋ฅ ์ ์ ํํ๋ค. (5e-5, 4e-5, 3e-5, 2e-5 ์ค์์ ์ฌ์ฉํ๋ค.) ๊ทธ๋ฆฌ๊ณ BERT-LARGE ๋ชจ๋ธ์ ์คํํ๋ค๋ณด๋ ๋๋๋ก ์ ์ ๋ฐ์ดํฐ์ ์ผ๋ก fine tune ํ๋๊ฑด ์์ข์ ์ ์๋ค๋ ๊ฒ์ ์์๊ณ ๊ทธ๋์ ๋ฌด์์๋ก ์ฌ๋ฌ๋ฒ fine tuneํ๊ณ ์ด ์ค์ ์ ์ผ ์ฑ๋ฅ์ด ์ข์ ๋ชจ๋ธ์ ๊ณจ๋๋ค. ์ฌ๋ฌ๋ฒ fine tuning ํ ๋๋ ์ฌ์ ํ์ต๋ check point๋ ๋์ผํ๊ฒ ์ฌ์ฉํ์ง๋ง ๋ฐ์ดํฐ๋ฅผ ์๊ฑฐ๋ ๋ถ๋ฅ๊ธฐ ํ๋ผ๋ฏธํฐ๋ ๋ค๋ฅด๊ฒ ์ฌ์ฉํ๋ค.
Table 1์ ๊ฒฐ๊ณผ๊ฐ ์๋ค. BERT ๋ฒ ์ด์ค๋ ๋ผ์ง๋ ๋ชจ๋ task์์ ๊ธฐ์กด sota ๋ชจ๋ธ๋ค๋ณด๋ค ์ถฉ๋ถํ ์ฌ์ ์๊ฒ 4.5%์ 7.0%๋ผ๋ ๊ฐ๊ฐ์ ํ๊ท ์ ํ๋๋ฅผ ํฅ์์์ผฐ๋ค. ๋ฒํธ ๋ฒ ์ด์ค๋ ๋ชจ๋ธ ๊ตฌ์กฐ์ ์ธ ๊ด์ ์์ attention mask๋ฅผ ์ ์ธํ๊ณ ๋ GPT์ ๊ฑฐ์ ๋์ผํ๋ค. ๊ฐ์ฅ ํฌ๊ธฐ๊ฐ ํฌ๊ณ ๋์ GLUE task์ธ MNLI์ ๋ํด์๋ 4.6%์ ์ ํ๋๋ฅผ ํฅ์์์ผฐ๋ค. ๊ณต์์ ์ผ๋ก GLUE ๋ฆฌ๋๋ณด๋์ ๋ฒํธ LARGE๋ 80.5์ ์ ๋ฐ์๋ค. ๊ทธ์ ๋นํด GPT๋ ์ฐ๋ฆฌ๊ฐ ๋ง์ง๋ง์ผ๋ก ํ์ธํ ๋ฐ 72.8์ ์ ๊ธฐ๋กํ๋ค.
๋ฒํธ LARGE๋ ๋๋๋ฌ์ง๊ฒ ๋ฒํธ BASE๋ณด๋ค ๋ชจ๋ ํ์คํฌ์์ ์์ฃผ ์์ ํ์ต ๋ฐ์ดํฐ๋ง์ผ๋ก๋ ํจ์ฌ ์ข์ ์ฑ๋ฅ์ ๋๋ค. ๋ชจ๋ธ์ ์ฌ์ด์ฆ์ ๋ํ ์ด์ผ๊ธฐ๋ 5.2์์ ๋ง์ด ํด๋ณด์.
TABLE 1
์๋ฒ์ ๊ธฐ๋ก๋ GLUE ํ ์คํธ ๊ฒฐ๊ณผ์ด๋ค. ๊ฐ๊ฐ์ ํ์คํฌ ๋ฐ์ ์๋ ์๋ ํ์ต ๋ฐ์ดํฐ์ ์์ด๋ค. ํ๊ท ์ ์๋ ๊ณต์์ ์ธ GLUE ์ ์๋์ ์ข ๋ค๋ฅธ๋ฐ ์ฐ๋ฆฌ๊ฐ WNLI set์ ๋ํ ์ ์๋ ์ ์ธํ๊ธฐ ๋๋ฌธ์ด๋ค. ๋ฒํธ์ GPT๋ ํ๋์ ๋ชจ๋ธ๋ก ํ๋์ task๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ค(?) F1์ ์๋ QQP์ MRPC์์, Spearman Correlation์ STS-B์์, ์ ํ๋๋ ๋ค๋ฅธ ํ์คํฌ์์์ ํ์ค ์ฒ๋๋ก ์ ํด์ง ์ ์์ด๋ค. ๋ฒํธ๋ฅผ ํ๋์ ์์๋ก ์ฌ์ฉํ๋ ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ์ ์ ์ธํ๋ค.
WNLI set ์ ์๋ฅผ ์ ์ธํ 8๋ฒ ๊ฐ์ฃผ๋ฅผ ๋ณด๋ฉด train, valid, test set์ ๋ถํฌ๊ฐ ๋๋ฌด๋๋ ๋ฌ๋ผ์ ์ฑ๋ฅ์ ์ธก์ ํ๊ธฐ๊ฐ ์ ๋งคํ ๋ถ๋ถ์ด ์์ด์ poor score๋ฅผ ์ป๊ฒ๋๋ ํ์์ด ์๋ค๊ณ ๋๋ ์ดํดํ์. ๊ทธ์น๋ง 19๋ ์ ์ด๋ฏธ 90์ ์ด์์ ์ ์๋ฅผ ๋ฌ์ฑํ๊ธด ํ์
Spearman Correlation์ ์์ด์๊ด๋ถ์์ด๋ผ ํ๋, ๋ ๋ณ์๊ฐ์ ์๊ด๊ด๊ณ๋ฅผ ๋ถ์ํ๋ ๊ธฐ๋ฒ์ด๋ค. ๋๋ ์ ๋ชฐ๋ผ!!!
4.2 SQuAD v1.1
์คํ ํฌ๋ ๋ํ์์ ๋ง๋ ์ง์์๋ต ๋ฐ์ดํฐ์ , SQuAD 1.1 ๋ฒ์ ์ 10๋ง๊ฐ์ ํฌ๋ผ์ฐ๋์์ฑ ์ง์์๋ต์์ด๋ค. ์ํคํผ๋์์์ ์ง๋ฌธ(=passage)๊ณผ ์ง๋ฌธ๊ณผ ๋ต์ด ์ฃผ์ด์ง๋ฉด ์ง๋ฌธ์์์ ๋ต์ ํด๋นํ๋ ๋ฒ์๋ฅผ ์์ํ๋ ๊ฒ์ด task์ด๋ค.
Figure 1์ ์ง์์๋ต ํ์คํฌ์์๋ ์ง๋ฌธ๊ณผ ์ง๋ฌธ์ด ํ๋์ ์ํ์ค๋ก ์ด๋ฃจ์ด์ ธ์์ผ๋ฉฐ ์ง๋ฌธ์ A ์๋ฒ ๋ฉ์ผ๋ก, ์ง๋ฌธ์ B ์๋ฒ ๋ฉ์ผ๋ก ์ด๋ฃจ์ด์ ธ์๋ค. ์ฌ๊ธฐ์๋ ํ์ธํ๋์์ ์ฌ์ฉ๋๋ ๋ฌธ์ฅ์ ์์๊ณผ ๋์ ์๋ฏธํ๋ S์ E๋ฒกํฐ์ ๋ํด ์ด์ผ๊ธฐ ํ ๊ฒ์ด๋ค. ์ด๋ค ๋จ์ด๊ฐ ์ ๋ต์ ํด๋นํ๋ ๋ถ๋ถ์ ์์ ๋จ์ด์ผ ๊ฐ๋ฅ์ฑ์ T์ S๋ฅผ ๋ด์ ํ๊ณ softmax๋ฅผ ๊ฑฐ์น ๊ฐ์ผ๋ก ๊ณ์ฐ๋๋ค. (์ฌ๊ธฐ์ T๋ i๋ฒ์งธ token์ ๋ง์ง๋ง hideen vector์์ ์ป์ด์ง๋ output ๊ฐ์ด๋ค)
์ ๋ต์ ํด๋นํ๋ ๋ถ๋ถ์ ๋ง์ง๋ง ๋จ์ด๋ฅผ ๊ตฌํ ๋๋ ์ ์ฌํ ๊ณต์์ด ์ฌ์ฉ๋๋ค. ์ ๋ต์ผ๋ก ์์๋๋ ํ๋ณด๋ค์ ์ ์๋ SยทTi + EยทTj ๋ก ๊ตฌํด์ง๋ค. ๊ทธ๋ฆฌ๊ณ ๊ฐ์ฅ ํฐ ์ ์๊ฐ ์์ธก์ผ๋ก ์ฌ์ฉ๋๋ค. ์ด ๋ j >= i ์ฌ์ผํ๋ค. ํ์ตํ ๋์ ๋ชฉ์ ํจ์๋ ์ฌ๋ฐ๋ฅธ start์ end ์๋ฆฌ์ ๋ก๊ทธ ์ฐ๋์ ํฉ์ด๋ค. 32์ ๋ฐฐ์น์ฌ์ด์ฆ, 5e-5์ ํ์ต๋ฅ ๋ก 3 epochs์ fine tune์ ๊ฑฐ์ณค๋ค.
ํ 2์์๋ ๊ธฐ์กด์ ๋์ ์ฑ์ ์ ์ง๋๋ ๋ชจ๋ธ๋ค์ด ์๋ ๋ฆฌ๋๋ณด๋ ์ฑ์ ์ ๋ณด์ฌ์ฃผ์ง๋ง, SQuAD ๋ฆฌ๋๋ณด๋์ ์ฌ๋ผ์๋ ๋์ ์ฑ์ ๋ค์ ์ง๋ ๋ชจ๋ธ๋ค์ ๋ํด์ ์ฐ๋ฆฌ๊ฐ ์ด์ฉํ ์ ์์๋งํ ์ต๊ทผ ์ค๋ช ์ด ์์๊ณ ํด๋น ๋ชจ๋ธ๋ค์ ์๋ฌด ๋ฐ์ดํฐ๋ ๊ฐ์ง๊ณ ํ์ต์ ํ ์ ์์๋ค. ๊ทธ๋์ ์ฐ๋ฆฌ๋ SQuAD๋ก fine tuningํ๊ธฐ ์ ์ TriviaQA๋ก ๋จผ์ finetuing์ ํ๊ณ ๊ทธ๋ฌ๋ฉด์ ์ ๋นํ data augmentation์ ์ฌ์ฉํ๋ค.
์์ธํ ๋งํ๋ฉด SQuAD 1.1์์ ๋ชจ๋ธ๋ค์ด ๋์ ์ฑ์ ์ ๋์ ๋ ์ด์ ๋ํ ์ค๋ช ์ SQuAD์์๋ ํ์ธํ ์ ์์๋ค. ์ต์ ๋ฆฌ๋๋ณด๋ ๋ค์ ์ด๋ฌํ ์ ๋ณด๋ฅผ ์ ๊ณตํด์ฃผ๋๋ฐ์ ๋นํด ์ฌ๊ธฐ์๋ ์ด๋ฐ description์ ์ ๊ณตํด์ฃผ์ง ์์๋ ๊ฒ. ๊ทธ๋์ top ๋ชจ๋ธ๋ค์ด ์ด๋ค ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ๋์ง ์ ์๊ฐ ์์๊ณ ์ด task๋ ์์ ๋กญ๊ฒ ๋ชจ๋ ๊ณต๊ณต ๋ฐ์ดํฐ๋ฅผ ํ์ตํ ์ ์์์ผ๋ฏ๋ก ์๊ธฐ๋ค๋ triviaQA ๋ฐ์ดํฐ๋ฅผ ์ ๋นํ ์ฌ์ฉํ๋ค ๋ผ๋ ์ ์ ๋งํ๋ค. (์ธ๋ถ ๋ฐ์ดํฐ๋ฅผ ๋ง์ด ์จ์ ํ์ต์ ํ๋ค๋ฉด ๋ชจ๋ธ์ ์ฐ์ํจ๋ณด๋ค ๋ฐ์ดํฐ์ ์ ์ฐจ๋ณ์ฑ์ด ๋์ ๋๋ ์ด ๋ถ๋ถ์ ์๊ฒํ๊ธฐ ์ํด ์ ๋นํ ์ฌ์ฉํ๋ค๋ ๊ฒ์ ๋งํ๋ ๋ฏ)
์ฐ๋ฆฌ ๋ชจ๋ธ์ ๊ธฐ์กด ์ต๊ณ ์ฑ์ ์ ๋ชจ๋ธ๋ณด๋ค ์์๋ธ์์๋ F1 ์ ์๊ฐ 1.5์ ์ด ๋์๊ณ ๋จ์ผ ๋ชจ๋ธ์์๋ 1.3์ ์ด ๋์๋ค. ์ฌ์ค ์ฐ๋ฆฌ ๋ฒํธ๋ชจ๋ธ์ ํ์กดํ๋ ์ต๊ณ ์ ๋ชจ๋ธ์ ์์๋ธํ๊ฒ๋ณด๋ค ๋ฐ์ด๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ฌ์ค TriviaQA ๊ฐ์ง๊ณ fine tuningํ์ง ์์๋ F1 ์ ์๋ 0.1์์ 0.4์ ๋ฐ์ ์ฐจ์ด๋์ง ์๊ธฐ ๋๋ฌธ์ ๊ฝค ํฐ ๊ฒฉ์ฐจ๋ก ๋์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค๊ณ ๋งํ ์ ์๋ค.
TriviaQA๋ ์์ฑํด ํ๊ต์์ ๋ง๋ QA ๋ฐ์ดํฐ์ ์ด๋ค.
Table 2
SQuAD 1.1 ๋ฒ์ ์ ๊ฒฐ๊ณผ์ด๋ค. ๋ฒํธ์ ์์๋ธ ๋ฒ์ ์ ์๋ก ๋ค๋ฅธ fine tuning ํ๋ผ๋ฏธํฐ(=seeds)์ ์ฒดํฌํฌ์ธํธ๋ฅผ ์ฌ์ฉํ๋ 7๊ฐ์ ๋ชจ๋ธ๋ก ์์๋ธํ๋ค.
Table 3
SQuAD 2.0 ๊ฒฐ๊ณผ์ด๋ค. ๋ฒํธ๊ฐ ์ฅ์ฐฉ๋์ด ์๋ ๋ชจ๋ธ๋ค์ ๋น๊ต๋ ํ์ง ์์๋ค.
4.3 SQuAD v2.0
SQuAD 2.0์ 1.1๋ฒ์ ์์ ๋ ๋์๊ฐ ์ ๋ต์ด ์์ ์๋ ์๋ ๊ฐ๋ฅ์ฑ์ ์ถ๊ฐํ๋ฉด์ ์ข ๋ ํ์ค์ ์ธ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋๋ก ํ์ฅํ๋ค.
์ค์ฟผ๋ 1.1๋ฅผ ์ฌ์ฉํ๋ ๋ฒํธ ๋ชจ๋ธ์ ํ์ฅํ๊ธฐ ์ํด์ ๊ฐ๋จํ ๋ฐฉ๋ฒ์ ์ผ๋๋ฐ, ์ ๋ต์ด ์์ ๊ฒฝ์ฐ์๋ start token๊ณผ end token์ ์์น๊ฐ ๋ชจ๋ CLS ํ ํฐ ์๋ก ์๋๋ก ํ๋ ๋ฐฉ๋ฒ์ด๋ค. ํ๋ฅ ์ ํํํ ์ ์๋ ๋ฒ์๊ฐ CLS ํ ํฐ๊น์ง start token๊ณผ end token์ด ์์ ์ ์๋๋ก ํ์ฅ๋์์ด๋ค. ์์ธกํ ๋๋ ์ผ๋จ no-answer ์ ์์ธ์ง๋ฅผ ํ์ธํ๋ค. ์ด๋ no answer ์ ์์ธ S_null = SยทC + EยทC๊ณผ ์ ๋ no answer(=best non-null) ์ด ์๋ ์ ์ ๊ณผ ๋น๊ตํ๋ค. ์ด ๋ ์ด non null ์ ์๋ j>=i ๋ฉด์ SยทTi + EยทTj ๊ฐ ์ต๋๊ฐ ๋๋ ์ ์์ด๋ค. ๊ทธ๋์ ์ด answer๊ฐ ์๋์ง ์๋์ง ํ์ธํ ๋๋ sหi,j > snull + ฯ์ธ์ง๋ฅผ ํ์ธํ๋ค. ์ด ๋ ํ์ฐ(=ฯ)๋ F1 ์ ์๊ฐ ๊ฐ์ฅ ๋๋๋ก ํ๋, ์คํ์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก ๊ฒฐ์ ๋๋ค. ์ค์ฟผ๋ 2 ๋ฒ์ ์ ์ธ ๋๋ TriviaQA data๋ฅผ ์ฌ์ฉํ์ง ์์๋ค. 48์ ๋ฐฐ์น์ฌ์ด์ฆ, 5e-5์ ํ์ต๋ฅ 2 epochs๋ก fine tune ํ๋ค.
์ด์ ์ ๋์ ์ฑ์ ์ ๊ฑฐ๋ ๋ฆฌ๋๋ณด๋์ ๋ ผ๋ฌธ๋ค๊ณผ ๋น๊ตํ ๊ฒฐ๊ณผ๋ ํ3์ ์๋ค. ์ด์ ๋ชจ๋ธ๋ค๊ณผ F1 ์ค์ฝ์ด๋ฅผ 5.1์ ๋ฒ๋ ธ๋ค.
Table 4
SWAG ํ์ต ๋ฐ ํ๊ฐ ์ ํ๋์ด๋ค. SWAG ๋ ผ๋ฌธ์๋ 100๊ฐ์ ์ํ์ ๋ํ ์ธ๊ฐ์ ์์ธก๋ ฅ๋ ์ธก์ ํ๋ค.
4.4 SWAG
The Situations With Adversarial Generations, SWAG ๋ฐ์ดํฐ์ ์ 11.3๋ง๊ฐ์ ์์ ์ถ๋ก ์ ๊ธฐ๋ฐ์ ๋ ๋ฐ์ดํฐ๋ฅผ ํ๊ฐํ๋ ๋ฌธ์ฅ์์ผ๋ก ์ด๋ฃจ์ด์ ธ ์๋ค. ๋ฌธ์ฅ์ด ์ฃผ์ด์ง๋ฉด 4๊ฐ์ ๋ณด๊ธฐ์ค์ ๊ทธ๋ด ๋ฏํ(=plausible) ๋ต์ ๊ณ ๋ฅด๋๊ฒ TASK์ด๋ค.
SWAG ๋ฐ์ดํฐ์ ์ผ๋ก fine tuning ํ ๋ 4๊ฐ์ input sequence๋ฅผ ์ ๋ ฅํด์ค์ผ ํ๋ค. ์ด sequence๋ ์ฃผ์ด์ง ๋ฌธ์ฅ๊ณผ ์ฃผ์ด์ง ๋ฌธ์ฅ ๋ค๋ก ์ด์ด์ง ์ ์๋ ์ ํ์ง์ ์ฐ๊ฒฐ๋ก ๊ตฌ์ฑ๋๋ค. (์ ํ์ง๊ฐ 4๊ฐ์ด๋ฏ๋ก ์ด 4๊ฐ์ input sequence๊ฐ ๋์ด) (์ดํ ์ด 4๊ฐ์ input์ด BERT๋ก ์ ๋ ฅ๋์ด output์ ์ป๊ณ ์ด output์) CLS ํ ํฐ์ ๊ฐ์ง๊ณ ๊ฐ๊ฐ์ ์ํ์ค์ ์ ์๋ฅผ ๊ตฌํ ์ ์๋ค. ์ด ์ ์๋ task-specificํ ํ๋ผ๋ฏธํฐ V์์ ๋ด์ ํด์ ๊ตฌํด์ง๋ฉฐ ๊ฐ๊ฐ์ ์ ์๋ค์ softmax layer๋ฅผ ๊ฑฐ์น๊ฒ ๋๋ค.
์ฌ๊ธฐ์ task-specificํ๋ค๋ ๊ฒ์ nlp task๊ฐ ์ฌ๋ฌ๊ฐ์ด๊ณ ๊ฐ๊ฐ์ task๋ง๋ค CLSํ ํฐ๊ณผ ๊ณฑํด์ง๋ ๋ฒกํฐ๊ฐ ๋ค๋ฅด๋ค๋ ๊ฒ์ ์๋ฏธ
์ฌ๊ธฐ ๋ฌธ์ฅ ๊ตฌ์กฐ๊ฐ ๋ ํดํ๊ธฐ๊ฐ ์ด๋ ค์์ ํ๋ฒ ๋ค๋ฃจ๊ณ ๋์ด๊ฐ๊ฒ ์
์๋ฌธ
The only task-specific parameters / introduced / is a vector / whose dot product with the [CLS] token representation C / denotes a score / for each choice / which is normalized with a softmax layer
the only task-specific : SWAG์์ ๋งํ task๋ 4์ง์ ๋คํ task์ด๊ณ ์ด ํ๋๋ฐ์ ์๊ธฐ ๋๋ฌธ์ ์ด๋ฌํ ํํ ์ฌ์ฉ
introduced : ์ง๊ธ ๊ณ์ ์ธ๊ธํ๊ณ ์๋
is a vector ~ : a vector is ๊ตฌ๋ฌธ์ด ๋์น๋ ๋ฌธ์ฅ, ์ด๋ vector๋ฅผ ์์ํ๋ whose์ ์ด ๊ธธ๊ธฐ ๋๋ฌธ์ ๋์นํ ๊ฒ์. ๋ํ, a vector๊ณผ parameters๋ ๋จ๋ณต์๊ฐ ๋ง์ง ์์ ๊ฒ์ฒ๋ผ ๋ณด์ผ ์๋ ์์ง๋ง ์ ์๊ฐํด๋ณด๋ฉด ๋ฒกํฐ ์์ฒด๊ฐ ์ด๋ฏธ ๋ณต์ ์งํฉ์ฒด์.
whose dot product ~ : task-specificํ ํ๋ผ๋ฏธํฐ๋ CLS ํ ํฐ๊ณผ ๋ด์ ์ ํจ ๊ทธ๋ฆฌ๊ณ ์ด๋ ์ ์๋ฅผ ์๋ฏธํจ
for each choice : 4์ง์ ๋ค์ ๋ํด ๊ฐ๊ฐ์ sequence๋ฅผ choice๋ก ํํ.
which : choice๋ฅผ ๊พธ๋ฏธ๋ ๊ฒ ๊ฐ๊ธด ํ๊ณ ๋, ์๋ฏธ์ ์ผ๋ก๋ ํฌ๊ฒ ์ด์ํ์ง๋ ์์ง๋ง score๋ฅผ ๊พธ๋ฏธ๋ ๊ตฌ๋ก ๋ณด์. ๊ฐ๊ฐ์ sequence๋ณด๋ค๋ ๊ฐ๊ฐ์ sequence์ ์ ์๊ฐ softmax layer๋ฅผ ํตํด ์ ๊ทํ๋๊ธฐ ๋๋ฌธ.
๋ชจ๋ธ์ 3 epochs, 2e-5 lr, 16 bs๋ก fine tune ํ๋ค. ๊ฒฐ๊ณผ๋ Table 4์ ์๋ค. ๋ฒํธ ๋ผ์ง๋ชจ๋ธ์ ESIM+ELMO ๋ชจ๋ธ๋ณด๋ค 27.1%, GPT ๋ชจ๋ธ๋ณด๋ค 8.3% ์ฑ๋ฅ์ ์๋ํ๋ค.
5 Ablation Studies
์ด๋ฒ ์ฅ์์๋ ๋ฒํธ์ ๊ด๊ณ์ ์ค์์ฑ์ ์ ์ดํดํ๊ธฐ ์ํด ๋ฒํธ์ ์ฌ๋ฌ ๋ถํ ๋ฒ์ ์ ๋ํด ablation ์คํ์ ํ๋ค. ์ถ๊ฐ์ ์ธ ์ฐ๊ตฌ๋ ๋ถ๋ก C๋ฅผ ์ฐธ๊ณ ํด๋ผ!
ablation ์ด๋ ๋ชจ๋ธ์ด๋ ์๊ณ ๋ฆฌ์ฆ์ ๊ตฌ์ฑํ๋ ๋ค์ํ ๊ตฌ์ฑ์์(component) ์ค ์ด๋ ํ โfeatureโ๋ฅผ ์ ๊ฑฐํ ๋, ์ฑ๋ฅ(performance)์ ์ด๋ ํ ์ํฅ์ ๋ฏธ์น๋์ง ํ์ ํ๋ ๋ฐฉ๋ฒ์ ๋งํ๋ค.
์ค์ ๋ก ์ฌ์ ์ ์๋ฏธ๋ ์ผ์ ๋ถ๋ถ์ ์ ๊ฑฐํ๋ค๋ ๋ป์ด๋ค.
Table 5
pretraining task์ Ablation์ BERT-BASE ๊ตฌ์กฐ์์ ์คํํ๋ค. "No NSP"๋ next sentence prediction task๊ฐ ์์ด ํ์ต๋๋ค. "LTR & No NSP"๋ "No NSP" ํญ๋ชฉ์๋ค๊ฐ bidirectional์ด ์๋ GPT์ฒ๋ผ left to right LM์ผ๋ก attention ๋ฐฉ์์ด ๋ฐ๋ ํญ๋ชฉ์ด๋ค. "+BiLSTM"์ "LTR & No NSP"์ ๋ชจ๋ธ์ output ๊ตฌ์กฐ์ ๋ฌด์์๋ก ์ด๊ธฐํ๋ BiLSTM์ ์ถ๊ฐํ ํญ๋ชฉ์ด๋ค.
5.1 Effect of Pre-training Tasks
์ฌ๊ธฐ์๋ BERT์์ deep bidirectionality์ ์ค์์ฑ์ ๋ ๊ฐ์ training ๋ชฉ์ ํจ์๋ฅผ ์ฌ์ฉํ๋ฉด์ ์ค๋ช ํ๋ค. ์ด ๋ ๋์ผํ ๋ฐ์ดํฐ, ๋์ผํ fine tuning, ๋์ผํ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ๋ค.
No NSP
NSP task๊ฐ ์๊ณ masked LM๋ง ์ฌ์ฉํ๋ bidirectional model์ด๋ค.
LTR & No NSP
MLM ๋ฐฉ์์ด ์๋, Left-to-Right, LTR ๋ฐฉ์์ Language Model, LM์ ์ด์ฉํด ํ์ตํ๋ left-context-only model์ด๋ค. ์ด left-only๋ (pre-trained ๋ฟ๋ง ์๋๋ผ) fine tuning์์๋ ํ๊ณ์ ์ผ๋ก ์์ฉํ๋ค. MLM ๋ฐฉ์์ ํฌ๊ธฐํ๋ฉด์ pre-train๊ณผ fine-tune์์downstream task๋ค์ ์ฑ๋ฅ์ด ํ๋ฝ๋๋ ๋ฌธ์ (=mismatch, LTR๋ฐฉ์์ LM์ด downstream๊ณผ ์ ๋ง์ง ์๋๋ค๋ ๊ฒ์ mismatch๋ก ํํํ๋ค)๊ฐ ๋ฐ์ํ๋ค. ๊ฒ๋ค๊ฐ, NSP task๊ฐ ์์ด ์ฌ์ ํ์ต๋์๊ธฐ ๋๋ฌธ์ ์ด๋ GPT์ ์ง์ ์ ์ผ๋ก ๋น๊ต๊ฐ ๊ฐ๋ฅํ์ง๋ง BERT๊ฐ ์ข ๋ ํฐ ๋ฐ์ดํฐ์ ๊ณผ, ํฐ ์๋ฒ ๋ฉ ์ฐจ์ ๊ทธ๋ฆฌ๊ณ ๋ฒํธ๋ง์ fine tuning ๋ฐฉ์์ ์ฌ์ฉํ๋ค๋ ์ฐจ์ด์ ์ด ์๋ค.
์ฐ๋ฆฌ๋ NSP๊ฐ ๊ฐ์ ธ๋ค ์ฃผ๋ ์ํฅ์ ๋ํด ์คํํ๋ค. ํ 5์์ NSP๋ฅผ ์ ๊ฑฐํ๋ฉด QNLI๋ MNLI ๊ทธ๋ฆฌ๊ณ SQuAD 1.1์์ ์ฑ๋ฅ์ด ๋๋๋ฌ์ง๊ฒ ํ๋ฝํ๋ ๊ฒ์ ๋ณผ ์ ์๋ค. ๋, ์๋ฐฉํฅ attention ๋ชจ๋ธ์ ์ํฅ์ ํ์ธํ๊ธฐ ์ํด "No NSP"์ "LTR & No NSP"๋ฅผ ๋น๊ตํด๋ดค๋๋ LTR๋ชจ๋ธ์ด MLM๋ณด๋ค ๋ชจ๋ ํ์คํฌ์์ ๋ ๋ฎ์ ์ฑ๋ฅ์ ๋๋ค. ํนํ MRPC์ SQuAD์์ ๋ํญ ํํฅ๋๋ค.
์ ๋ํญ ํํฅํ์๊น? MRPC๋ ์จ๋ผ์ธ ๋ด์ค์์ ์๋์ผ๋ก ์ถ์ถ๋ ๋ ๋ฌธ์ฅ๊ฐ์ ์ ์ฌ๋๋ฅผ ํ์ธํ๋ Task์ด๊ณ SQuAD๋ ์ง๋ฌธ/๋ต๋ณ ์์ด๋ค. ํนํ ๋๊ฐ์ ๋ฌธ์ฅ์์ ์ด์ฉํ Task์์ LTR ๋ฐฉ์์ ์ฌ์ฉํ๋๋ ์ฑ๋ฅ์ด ํ๋ฝํ ๊ฒ. LTR๋ณด๋ค MLM์ด ๋ฌธ์ฅ ๋ ๋ฒจ์ attention์ ์ ํํํ๊ณ ๋น๊ตํ ์ ์์์ ๋ณด์ฌ์ค๋ค.
SQuAD ๋ฐ์ดํฐ์ ์์ LTR ๋ชจ๋ธ์ token ์์ธก์ด ํํธ ์์์ ๋ถ๋ช ํ ๋ณด์ฌ์ค๋ค. ์ด๋ token-level์์์ hidden states๋ ์ค๋ฅธ์ชฝ sequence์ ๋ฌธ๋งฅ์ ๋ณด๊ฐ ์๊ธฐ ๋๋ฌธ์ด๋ค. LTR ๋ชจ๋ธ์ ๊ฐ์ ํ ์ ์์ง ์์๊น๋ผ๋ ์ ์(์ด๋ฏธ, BERT์์ bidirectionality์ ์ค์์ฑ์ ๋งํด์คฌ๊ธฐ ๋๋ฌธ์ constraintํ LTR์ ์ด์ degenerateํ ๋ชจ๋ธ์ด ๋์์ง๋ง ํ๋ฒ ํ์ํ ์ ์๋ ๊ธฐํ๋ฅผ ์ค๋ค๋ผ๋ ์๋ฏธ๋ก ๋ฐ์๋ค์ฌ์ง๋ค)๊ฐ ์๊ฒจ์ ๋ชจ๋ธ์ ๊ฐ์ฅ ์์ชฝ์ ๋ฌด์์๋ก ์ด๊ธฐํ๋ BiLSTM์ ์ถ๊ฐํ๋ค. ์ด๊ฒ์ SQuAD ๋ฐ์ดํฐ์ ์ ๋ํด์๋ ๋๋๋ฌ์ง ๊ฐ์ ์ ๋ณด์๋ค. ํ์ง๋ง ์์ง๋ ์๋ฐฉํฅ ๋ชจ๋ธ์ ์ฑ์ ๋ณด๋ค๋ ๊ฝค ๋ง์ด ๋ชป๋ฏธ์ณค๋ค. BiLSTM์ (์คํ๋ ค) GLUE task์ ์ฑ์ ์ ๋ ํด์ณค๋ค.
๋ฌผ๋ก , ELMO๊ฐ ๊ทธ๋ฌ๋ ๊ฒ์ฒ๋ผ LTR๊ณผ RTL ๋ชจ๋ธ์ ๊ฐ๊ฐ ํ์ตํ๊ณ ๋ ๋ชจ๋ธ์ representation์ concatenationํด์ ์ฌ์ฉํ ์๋ ์๋ค. ๊ทธ๋ฌ๋ (a) ์ด๋ ํ๋์ ์๋ฐฉํฅ ๋ชจ๋ธ๋ณด๋ค ๋ ๋ฐฐ ๋ ๋น์ผ ๋ฐฉ๋ฒ์ด๋ค. (b) ์ด๋ฌํ ๋ฐฉ๋ฒ์ QA task์ ๊ดํด์๋ ๋น์ง๊ด์ ์ด๋ค. ์๋ํ๋ฉด RTL ๋ชจ๋ธ์ ์ง๋ฌธ์ ๋ํ ๋ต๋ณ์ ์กฐ์ ํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. (c) ๊น์ ์๋ฐฉํฅ ๋ชจ๋ธ์ ๋ชจ๋ ๋ ์ด์ด์์ ๋์์ ์ผ์ชฝ๊ณผ ์ค๋ฅธ์ชฝ์ ๋ฌธ๋งฅ์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ์ด๋ณด๋ค๋ ๋ถ๋ช ํ ์ฑ๋ฅ์ด ๋ฎ์ ์ ๋ฐ์ ์๋ค.
5.2 Effect of Model Size
์ด๋ฒ ์ฅ์์๋ ๋ชจ๋ธ์ ํฌ๊ธฐ๊ฐ fine tuning์ task์ ์ ํ๋์ ๋ฏธ์น๋ ์ํฅ์ ๋ํด ์์๋ณด๊ฒ ๋ค. ์ฐ๋ฆฌ๋ ์๋ก ๋ค๋ฅธ ๋ ์ด์ด ์, hidden unit, attention heads๋ฅผ ์กฐ์ ํด๊ฐ๋ฉฐ ์ฌ๋ฌ BERT ๋ชจ๋ธ์ ํ์ต์์ผฐ๋ค. ์ด ๋ ์ธ๊ธํ์ง ์์ ๋ค๋ฅธ ํ๋ผ๋ฏธํฐ๋ ์ด์ ์ ์ฌ์ฉํ๊ฒ๊ณผ ๋์ผํ๋ค.
GLUE tasks๋ก ์งํ๋ ๊ฒฐ๊ณผ๋ ํ 6์์ ๋ณผ ์ ์๋ค. ์ฌ๊ธฐ์๋ ๋ฌด์์๋ก ์ด๊ธฐํ ๋ 5๊ฐ์ Dev Set์ ํ๊ท ์ ํ๋๋ฅผ ๋ํ๋ธ๋ค. 4๊ฐ์ ๋ฐ์ดํฐ์ ์ ๋ํ์ฌ ๋ชจ๋ธ์ด ํด์๋ก ํ์คํ(=strict, ์๊ฒฉํ) ์ ํ๋ ๊ฐ์ ์ ์ด๋ฃจ์ด์ง๋ ๊ฒ์ ์ ์ ์๋ค. MRPC ๋ฐ์ดํฐ๋ ๊ฒจ์ฐ 3600๊ฐ์ ๋ผ๋ฒจ๋ง ๋ ๋ฐ์ดํฐ๋ง์ด ์กด์ฌํ๊ณ pre-training task์๋ ๋์ฒด๋ก ์ฐจ์ด๊ฐ ์๋๋ฐ๋ ๋ง์ด๋ค. ๋๋์ง๋ ๋ชจ๋ฅด๋๋ฐ, ์ฐ๋ฆฌ๋ ๊ธฐ์กด์ ์ด๋ฃจ์ด์ง ์ฐ๊ตฌ๋ค์์ ์๊ฐ๋(=๋งค์ฐ ๋ฐ์ ํ ๊ด๋ จ์ด ์๋) ๋ชจ๋ธ๋ค์ ๊ผญ๋๊ธฐ์์ (ํ๋ฒ ๋ ) ๋๋๋ฌ์ง ์ฑ๋ฅ ๊ฐ์ ์ ์ด๋ฃจ์ด๋๋ค๋ ๊ฒ์ด๋ค. ์๋ฅผ ๋ค์ด Vaswani et al. (2017)์ ์๊ฐ๋ ์ด๋ํ ํธ๋์คํฌ๋จธ(L=6, H=1024, A=16)๋ ์ธ์ฝ๋์์๋ง 1์ต๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๊ณ ์๊ณ Al-Rfou et al., 2018์ ์๊ฐ๋ (๋ ๋ค๋ฅธ) ์ด๋ํ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ(L=64, H=512, A=2)๋ 2.35์ต๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๊ณ ์๋ค. (์ด์ ๋ชจ๋ธ๋ ํฌ๊ธฐ๋ฅผ ๋งค์ฐ ํฌ๊ฒ ํค์ ์๋๋ฐ ์ฐ๋ฆฌ ๋ชจ๋ธ๋ ํฌ๊ธฐ๋ฅผ ํค์์ ์ฑ๋ฅ์ ๋์๋ค.) ๋์กฐ์ ์ผ๋ก(=ํฌ๊ธฐ๋ฅผ ํค์ ์ง๋ง ๋ฒํธ์ ์ฑ๋ฅ์ด ๋ ๋๋ค๋ ์ ์ด ๋์กฐ์ ์ผ๋ก ํํํ ๋ฏ) ๋ฒํธ ๋ฒ ์ด์ค ๋ชจ๋ธ์ 1.1์ต๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ, ๋ฒํธ ๋ผ์ง ๋ชจ๋ธ์ 3.4์ต๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๋ค.
dev set์ ๊ฒ์ฆ ๋ฐ์ดํฐ valid set์ ์๋ฏธํ๋ค.
pre-training task์ MRPC๊ฐ ์ฐจ์ด๊ฐ ์๋ค๋ ๋ถ๋ถ์ ๊ธฐ์กด์ task๋ค์ pre-train ๋ชจ๋ธ์ ๋ํด ๋ฏธ์ธ์กฐ์ ํ ๋ ํฐ ๋ฐ์ดํฐ์ ์ผ๋ก ์กฐ์ ํ๋ค. ์๋ํ๋ฉด ๋ฐ์ดํฐ๊ฐ ์์์๋ก ์ค๋ฒํผํ ๋ ๊ฐ๋ฅ์ฑ์ด ๋ง๊ธฐ ๋๋ฌธ์ด๋ค. ๋ฐ๋ฉด์ MRPC๋ ์์ ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ตํ๊ธฐ ๋๋ฌธ์ ์๊ฒ ํ์ต๋ ๊ฐ๋ฅ์ฑ์ด ์๊ธฐ์ ์ด๋ฐ ์ํฉ์ด ๋ค๋ฅด๋ค๊ณ ์ด์ผ๊ธฐ
๋ชจ๋ธ ์ฌ์ด์ฆ๋ฅผ ํค์ฐ๋ฉด ๊ธฐ๊ณ๋ฒ์ญ์ด๋ ์ธ์ด ๋ชจ๋ธ๋ง๊ฐ์ ๋งค์ฐ ํฐ task๋ค์ ๋ํด ๊ณ์ ์ฑ๋ฅ์ด ๋์ด๋๋ค๋ ๊ฒ์ ์ด์ ๋ถํฐ ์๊ณ ์์๋ค. ์ด๋ฌํ ์ฌ์ค์ ํ 6์์ held-out training data๋ฅผ ๊ฐ์ง๊ณ ํ๊ฐ๋ LM perplexity ์ ์๋ก๋ ์ฆ๋ช ๋๋ค. ๊ทธ๋ฌ๋ ์ฌ๊ธฐ์ ์ฐ๋ฆฌ๊ฐ ์ต์ด๋ก ์ฆ๋ช ํ ๊ฒ์ (๋จ์ํ ํฐ task๋ค ๋ฟ๋ง ์๋๋ผ) pre training๋ง ์ถฉ๋ถํ ์ ๋์๋ค๋ฉด ๋งค์ฐ ์์ task์ ๋ํด์๋ ์์ฒญ๋ ์ฑ๋ฅ ๊ฐ์ ์ด ํ์คํ๊ฒ ์ด๋ฃจ์ด์ง๋ค๋ ๊ฒ์ด๋ค. (๊ทธ๋์ ์์์ 3600๊ฐ์ ๋ฐ์ดํฐ๋ฐ์ ์๋ MRPC๋ฅผ ์ธ๊ธํ ๊ฒ) Peters et al. (2018b) ์์๋ pre-trained๋ bi-LM์ ์ฌ์ด์ฆ๋ฅผ 2๊ฐ์ ๋ ์ด์ด์์ 4๊ฐ๋ก ๋๋ ธ์ ๋ downstream task์ ๋ฏธ์น๋ ์ํฅ์ ๋ํ ์๋ก ๋ค๋ฅธ(=mixed) ๊ฒฐ๊ณผ๋ฅผ ๋ด๋์๋ค. ๋, Melamud et al. (2016) ์์๋ in passing(=์ฐจ์์ ํค์ฐ๋ ๊ณผ์ ์์) hidden ์ฐจ์์ 200์์ 600์ผ๋ก ๋๋ ธ์ ๋๋ ๋์์ด ๋์ง๋ง 1000์ผ๋ก ๋๋ ธ์ ๋๋ ๋์ด์์ ๊ฐ์ ์ด ์์๋ค. ์ด์ ์ฐ๊ตฌ๋ค์ feature-based ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค. (๊ทธ๋์) ์ฐ๋ฆฌ๋ fine tuned ๋ฐฉ์ผ๋ก downstream task๋ฅผ ์ง์ ์ ์ผ๋ก ํด๊ฒฐํ ๋ ๋งค์ฐ ์์ ์์ ํ๋ผ๋ฏธํฐ๋ง ์ถ๊ฐ์ ์ผ๋ก ์ฌ์ฉํ ์ ์๊ณ . ํน์ task๋ฅผ ์ฒ๋ฆฌํ๋ ๋ชจ๋ธ์ pretrained ๋ชจ๋ธ์ด ์ปค์ง๊ณ , downstream task data๊ฐ ์์ ๋ ์ฑ๋ฅ์ด ๋์ฌ ๊ฒ์ด๋ผ ๊ฐ์ ํ๋ค.
5.3 Feature-based Approach with BERT
์ง๊ธ๊น์ง ๋ฒํธ๊ฐ ๋ณด์ฌ์ค ๊ฒฐ๊ณผ๋ fine tuning ์ ๊ทผ๋ฒ์ด ์ฌ์ฉ๋์๊ณ fine tune ํ ๋๋ ๊ฐ๋จํ ๋ถ๋ฅ๊ธฐ๋ง pre trained ๋ชจ๋ธ์ ์ถ๊ฐํ๋ฉด ๋๋ค. ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ down stream task์ ๋ํด ๋ฏธ์ธ ์กฐ์ ๋๋ค. ๊ทธ๋ฌ๋ feature based ๋ฐฉ๋ฒ์ feature๊ฐ ๊ณ ์ ๋์ด์๊ธฐ ๋๋ฌธ์ ๋ค์๊ณผ ๊ฐ์ ์ฅ์ ์ ๊ฐ์ง๋ค. ์ฒซ๋ฒ์งธ, ๋ชจ๋ task๊ฐ ํธ๋์คํฌ๋จธ์ ์ธ์ฝ๋ ๊ตฌ์กฐ๋ก ๋ํ๋ด์ง๋ ํน์ง์ ์ฌ์ฉํ๊ธฐ๊ฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์ ์ถ๊ฐ์ ์ธ ๋ชจ๋ธ ๊ตฌ์กฐ๊ฐ ํ์ํด์ง๋ค. ๋๋ฒ์งธ, ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ํ๋ฒ ๋งค์ฐ ๋น์ธ๊ฒ ํ๋ จํด์ ํน์ง์ ์ป๊ณ ๋๋ฉด ๊ทธ ๋ค์ ๋ชจ๋ธ์ ๋น์ฉ์ด ๊ฐ์ผ ๋ชจ๋ธ์ ๋ถ์ฌ์ ๋ง์ ์คํ์ ํ ์ ์๋ค.
์ด๋ฒ ์ฅ์์๋ BERT์ ๋ ๊ฐ์ ๋ฐฉ๋ฒ์ ์ ์ฉํด NER task๋ฅผ ์ ์ฉํด๋ดค๋ค. ๋ฒํธ๋ก ์ ๋ ฅ์ ์ค ๋ case-preserving(=๋์๋ฌธ์๋ฅผ ๊ตฌ๋ถํ๋) WordPiece mdoel์ ์ฌ์ฉํ๊ณ ๋ฐ์ดํฐ๊ฐ ์ ๊ณตํ๋ context ์ ๋ณด๋ฅผ ์ต๋๋ก ์ฌ์ฉํ๋ค.(=constraint attention์ ์ฌ์ฉํ์ง ์์๋ค๋ ๋ป ๊ฐ๋ค. global attention์ผ๋ก ์ฌ์ฉํ๋ค๋ ๋ป ๊ฐ์)
Table 6
๋ฒํธ์ ๋ชจ๋ธ ์ฌ์ด์ฆ์ ๋ํ ablation ์คํ์ด๋ค. #L์ ๋ ์ด์ด์ ์ #H๋ ํ๋ ์ฐจ์, #A๋ attention head์ ์์ด๋ค. LM(ppl)์ held-out๋ฐฉ์์ training data์ MLM perplexity ์ด๋ค.
ppl์ perplexity์ ์ค๋ง๋ก ๋ชจ๋ธ ๋ด์์ ์์ ์ ์ฑ๋ฅ์ ์์นํ ํ ๋ด๋ถํ๊ฐ์ด๋ค. ์ธ๋ถํ๊ฐ๋ณด๋ค ์กฐ๊ธ ๋ถ์ ํํ ์๋ ์์ง๋ง ํ ์คํธ ๋ฐ์ดํฐ์ ๋ํด์ ๋น ๋ฅด๊ฒ ์์ผ๋ก ๊ณ์ฐ๋์ด์ ๋ ๊ฐ๋จํ ํ๊ฐ๋ฐฉ๋ฒ์ด๋ค.
์ด ๋ป์ ์ง์ญํ๋ฉด ํผ์กํ, ํท๊ฐ๋ฆฌ๋ ์ด๋ผ๋ ๋ป์ด๋ฉฐ ์ค์ ๋ก ์ผ๋ง๋ ํท๊ฐ๋ฆฌ๋์ ๋ํ ์ฒ๋์ด๋ค.
ppl์ ๋จ์ด์ ์๋ก ์ ๊ทํ ๋ ํ ์คํธ ๋ฐ์ดํฐ์ ๋ํ ํ๋ฅ ์ ์ญ์์ธ๋ฐ, ์ฝ๊ฒ ๋งํ๋ฉด ํน์ ์์ ์์ ํ๊ท ์ ์ผ๋ก ๋ช ๊ฐ์ ์ ํ์ง๋ฅผ ๊ฐ์ง๊ณ ๊ณ ๋ฏผ์ ํ๋์ง์ ๋ํ ๋ชจ๋ธ์ ๊ฒฝ์ฐ์ ์๋ฅผ ์๋ฏธํ๋ค๊ณ ๋ณด๋ฉด ๋๋ค.
์ด ์์น๊ฐ ๋ฎ์ ์๋ก ์ธ์ด ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ์ข๋ค. ์ด ๊ฐ์ด ๋ฎ์ผ๋ฉด ๋์ ์ ํ๋๋ฅผ ๋ณด์ด๊ฒ ๋๋ค.
held-out์ ๊ต์ฐจ๊ฒ์ฆ์ ํ ๋ฐฉ๋ฒ์ผ๋ก ์ฐ์ด๋ hold-out ๊ต์ฐจ๊ฒ์ฆ์ ์๋ฏธ๋ก ์ฐ์ธ๊ฒ์ผ๋ก ์ถ์ธก๋๋ค. hold-out ๊ต์ฐจ๊ฒ์ฆ์ ๋ฐ์ดํฐ์ ์ ํ๋ จ์ ๊ณผ ํ ์คํธ์ ๋๋ ํ๋ จ์ ๊ณผ ํ ์คํธ์ ๊ณผ ๊ฒ์ฆ์ ์ผ๋ก ๋๋์ด ํ์ตํ๋ ๋ฐฉ๋ฒ์ ์๋ฏธํ๋ค.
Last updated
Was this helpful?