24 Wed
[ํ์ด์ฌ ๋ฅ๋ฌ๋ ํ์ดํ ์น] PART 05 NLP
02 ๋ฌธ์๋ฅผ ์ซ์๋ก ํํํ๋ ๋ฐฉ๋ฒ
๋ฌธ์ฅ์ ์๋ฏธ๋ฅผ ๋ง๋๋ ๋ฐฉ์
๋ฌธ์ฅ์ ์๋ฏธ ์๋ ๋ถ๋ถ์ผ๋ก ๋๋๋ค
๋๋ ์ง ์๋ฏธ ์๋ ๋ถ๋ถ์ ์ซ์๋ก ๋ฐ๊ฟ ๋ฌธ์ฅ์ ์ซ์๋ก ํํํ๋ค
๊ฐ๋จํ ๋ฐฉ๋ฒ์ ๋์ด์ฐ๊ธฐ๋ฅผ ์ด์ฉํ๋ ๊ฒ
"๋๋ ์ฑ ์ ์์ ์ฌ๊ณผ๋ฅผ ๋จน์๋ค"
๋๋, ์ฑ ์, ์์, ์ฌ๊ณผ๋ฅผ, ๋จน์๋ค
์ด์ ๊ฐ์ด ์๋ฏธ ์๋ ๋ถ๋ถ์ผ๋ก ๋๋๋ ๊ณผ์ ์ Tokenization์ด๋ผ๊ณ ํ๋ฉฐ ์ชผ๊ฐ์ง ๋ถ๋ถ์ Token์ด๋ผ๊ณ ํ๋ค. Lexical Analysis๋ผ๊ณ ๋ ํ๋ค. => ์ฐ์๋ ๋ฌธ์์ ๋์ด์ ์ ์ ํ๊ฒ ์๋ฏธ๋ฅผ ์ง๋ ๋ถ๋ถ์ ๋์ด๋ก ๋ฐ๊พธ๋ ๊ณผ์
Out of Vocabulary(OOV)
Token์ ์ ์ฅํด๋ Vocabulary์ Token์ด ์์ด์ ์ฒ์ ๋ณธ Token์ด ๋์ค๋ ํ์์ OOV๋ผ๊ณ ํ๋ค.
์ด๋ด ๋๋ฅผ ๋๋นํด ํน์ํ Token์ธ <unk>์ ๋ง๋ค์ด ์ฒ์ ๋ณด๋ Token์ <unk>๋ก ๋ณํํ๋๋ก ์ฒ๋ฆฌ
Token์ ๋ชจ์ ๋์ ๋ฌธ์ฅ์ ๋ชจ์์ ๋ง๋ญ์น, Corpus๋ผ๊ณ ํ๋ค
๊ทธ๋ฌ๋ ์ด๋ฌํ ๋ง๋ญ์น๊ฐ ๋ง์์ง๋ฉด ๋ฉ๋ชจ๋ฆฌ์ ๋ชจ๋ธ์ ์ฌ์ด์ฆ๊ฐ ์ปค์ง๊ธฐ ๋๋ฌธ์ ํจ์จ์ ์ธ ๋ฐฉ๋ฒ์ด ํ์ํ๋ค
์๋ฅผ ๋ค์ด ํ์ค์ด์๊ฒ, ํ์คํํ ๋ ๋์ผํ ์๋ฏธ์ด๋ฏ๋ก ์ด๋ฌํ ์ค๋ณต์ ์ธ ์๋ฏธ๋ฅผ ๊ฐ์ง ์ฌ๋ฌ ๋จ์ด๋ฅผ ํจ์จ์ ์ผ๋ก ๊ด๋ฆฌํ๊ธฐ ์ํด์๋ ๋์ด์ฐ๊ธฐ๋ณด๋ค ๋ ์ข์ Tokenizer๊ฐ ํ์
Byte Pair Encoding(BPE)
Character based tokenization
๋์ด์ฐ๊ธฐ๊ฐ ์๋๋ผ ๊ธ์๋ฅผ Token์ผ๋ก ์ฌ์ฉ
์ฅ์
์ฌ์ ์ ํฌ๊ธฐ๊ฐ ์ค์ด๋๋ ์ฅ์ ์ด ์์
OOV ํ์์ ์์จ ์ ์๋ค.
๋จ์
ํํ๋ฒ์ ๋ํ ํ์ต์ด ์ด๋ ต๋ค
๊ธ์ ํ๋๋ ๋ณดํต ์๋ฏธ๋ฅผ ๊ฐ์ง๊ณ ์์ง ์๊ณ ์ฐ์๋ ๋์ด์ด ํน์ ์๋ฏธ๋ฅผ ๊ฐ์ง๊ธฐ ๋๋ฌธ์ ํจํด์ผ๋ก ํ์ตํด ์๋ฏธ๋ฅผ ๋ง๋ค์ด์ผํจ => ์ฌ์ด ์ผ์ ์๋
n-gram Tokenization
1๊ฐ ๋จ์๊ฐ ์๋๋ผ ์ฌ๋ฌ๊ฐ์ ์ฐ์๋ ์๋์ฐ๋ฅผ ๋จ์๋ก ์ดํด๋ณด๋ ๊ฐ๋
n์ ๋ฐ๋ผ uni, bi, tri-gram์ผ๋ก ๋๋๋ฉฐ n >= 4์ผ ๊ฒฝ์ฐ n-gram์ผ๋ก ๋ํ๋
์ฅ์
์ฐ์์ ์ผ๋ก ์ฌ์ฉ๋๋ ์ฉ์ด๋ฅผ ์ ์ฐพ์๋
๊ณ ์ ์ ์๋ฏธ๊ฐ ์๋ ๋์ด๋๋ ๋จ์ด๋ก ์์ฑ๋๋ ์๋ก์ด ์๋ฏธ๋ฅผ ์ ํ์ ํจ
๋์ด์ฐ๊ธฐ๋ ๊ธ์๋ก๋ ์ก์ ์ ์์๋ Token์ ์ฐพ์ ์ ์์
๋จ์
์ธ๋ชจ ์๋ ์กฐํฉ์ด ๋๋ฌด ๋ง์ด ์์ฑ๋๋ค
ํนํ ํ๊ตญ์ด๋ ์ด๋ฏธ ๋ณํ๊ฐ ๋ค์ํด์ ์๋ฏธ๋ ๋น์ทํ์ง๋ง ์๋ก ๋ค๋ฅธ Token์ด ๋งค์ฐ ๋ง์ด ์๊ฒจ๋ ๊ฒ
Token ์ฌ์ ์ด ๊ณผํ๊ฒ ์ปค์ง์ง๋ง ์๋ฏธ๊ฐ ์๊ฑฐ๋ ์์ฃผ ์ฌ์ฉ๋์ง ์๋ Token์ผ๋ก ๊ตฌ์ฑ๋์ด ๋นํจ์จ์
Byte Pair Encoding
Data Compression ๋ถ์ผ์์ ์ฌ์ฉ๋๋ ๊ฐ๋
๋ฐ๋ณต์ ์ผ๋ก ๋์ค๋ ๋ฐ์ดํฐ์ ์ฐ์๋ ํจํด์ ์นํํ๋ ๋ฐฉ์์ ์ฌ์ฉํด ๋ฐ์ดํฐ๋ฅผ ์ข ๋ ํจ์จ์ ์ผ๋ก ์ ์ฅํ๋ ๊ฐ๋
2015๋ <Nerual Machine Translation of Rare Word with Subword Units> ๋ ผ๋ฌผ์ ์์์ผ๋ก NP์์ ์์ฃผ ์ฌ์ฉ๋๋ Tokenizer Algorithm์ด ๋จ
n-gram์์ ์ฐ์๋ ๊ธ์์ ๋์ด์ด ์๋ ์ฌ๋ฌ ๋ฒ ๋ํ๋๋ ๊ธ์์ ๋์ด์ ์๋ฏธ๊ฐ ์๋ค๊ณ ์๊ฐํด ๋ฐ๋ก Token์ผ๋ก ๋ง๋๋ ๋ฐฉ์์ผ๋ก ๊ฐ์
์๊ณ ๋ฆฌ์ฆ
๋จ์ด ํ์๋ฅผ ๊ธฐ๋กํ ์ฌ์ ์ ๋ง๋ ๋ค. ์ด ๋ ์ฌ์ ์ ๋จ์ด ๊ธ์๋ ๋ชจ๋ ๋์ด ํํ
๊ฐ ๋จ์ด์ ๋ํด ์ฐ์๋ 2๊ฐ์ ๊ธ์์ ์ซ์๋ฅผ ์ธ์ด ๊ฐ์ฅ ๋ง์ด ๋์ค๋ ๊ธ์ 2๊ฐ์ ์กฐํฉ์ ์ฐพ๋๋ค
๋ ๊ธ์๋ฅผ ํฉ์ณ ๊ธฐ์กด์ ์ฌ์ ์ ๋จ์ด๋ฅผ ์์ ํ๋ค
๋ฏธ๋ฆฌ ์ ํด ๋์ ํ์๋งํผ 2~3๋ฒ์ ๊ณผ์ ์ ๋ฐ๋ณตํ๋ค
Word Embeding
๋ฌธ์ฅ์ ์ซ์๋ก ํํํ ๊ฒ์ ๋ ๊ฒ์ผ๋ก ์ฌ์ฉํ๋ฉด ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์ธ์๋ก ์ฌ์ฉํ ๋ ๋ฌธ์ ๊ฐ ์๋ค.
์ด ์ซ์๋ ๋จ์ํ ์ธ๋ฑ์ค๋ฅผ ์๋ฏธํ๊ธฐ ๋๋ฌธ
Token์ ์ ํํ ๊ฐ์๋ก ๊ฐ์ง ๋ณ์๋ก ์๊ฐํ๊ณ ๋ฒ์ฃผํ ์๋ฃ๋ก ํํํ๊ธฐ ๋๋ฌธ์ ๋ฐ์ํ๋ ๋ฌธ์
์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๋ ๋ฒ์ฃผํ ์๋ฃ ๋ณ์๋ฅผ ํํํ๋ ๋ฐฉ๋ฒ ์ค ํ ๊ฐ์ง๊ฐ ๋ฐ๋ก ์-ํซ ์ธ์ฝ๋ฉ
One-Hot Encoding
Corpus๋ฅผ ๋ชจ๋ Tokenizationํด Voca๋ฅผ ๋ง๋ค๊ณ ๊ฐ Tk ๋ง๋ค Index๋ฅผ ์ ํด์ผ ํ๋ค.
Frequency-based Method
๋จ์ด์ ํ์๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํํํ๋ ๋ฐฉ์์ ๋ง ๊ทธ๋๋ก ๋ฌธ์ฅ์ ์๋ Token์ ๋ฑ์ฅ ํ์๋ฅผ ์ธ์ด ํํํ๋ ๋ฐฉ์
Token์ ํ์์๋ง ์ง์คํ๊ธฐ ๋๋ฌธ์ ์ฃผ๋จธ๋ ๊ฐ์ ๊ณณ์ Token์ ๋ชจ์ ๋๋๋ค๊ณ ํด์ Bag of Words(BoW)๋ผ๊ณ ํ๋ค.
'a', 'an', 'the', 'in' ๋ฑ์ ๋จ์ด๋ ๋น๋์๊ฐ ๊ต์ฅํ ๋์๋ฐ ๋ฑ์ฅ ๋น๋๊ฐ ์ ์ Token์ ์ ์ํฅ์ ๋ผ์น๊ฒ ๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด TF-IDF๋ผ๋ ํํ๋ฐฉ๋ฒ์ด ์กด์ฌํ๋ค

TF-IDF
Term Frequency - Inverse Documnet Frequency
idf๋ Token์ด ๋ฑ์ฅํ๋ ์์ ๋น์จ์ ์ญ์์ด๋ค.
a๋ the ๋ฑ์ Token์ TF๊ฐ ๋์ง๋ง ๋ชจ๋ ๋ฌธ์ฅ(๋ฌธ์)์ ๋ฑ์ฅํ๋ฏ๋ก idf๋ log(1)์ ๊ฐ๊น์ ์ง๋ค. => 0์ ๊ฐ๊น์ด ์
๋ฐ๋ผ์ tf-idf ๋ tf์ idf๋ฅผ ๊ณฑํจ์ผ๋ก์จ ๊ณผ๋ํ๊ฒ ๋์๋ tf์์น๋ฅผ ๋ฎ์ถฐ์ค๋ค.
๋ฐ๋๋ก ํฌ๊ทํ Token์ ๊ฒฝ์ฐ์๋ ๋ถ์กฑํ TF๋ฅผ ์ฌ๋ ค์ฃผ๋ ํจ๊ณผ๋ฅผ ๋ณด์ธ๋ค
ํ์ ๊ธฐ๋ฐ์ ๋ฐฉ๋ฒ์ ๋ฌธ์๋ฅผ ๋น๊ต์ ์ฝ๊ฒ ํํํ ์ ์๊ณ ํน์ Task์ ๋ํด ๋์ด๋ ๋๋น ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค(ex ์คํธ)
๋จ์ ์ ๋จ์ด์ ์์๊ฐ ๋ฌด์๋๋ค๋ ์ ์ด๋ฉฐ NLG์ ๊ฐ์ด ์๋ก์ด ๋ฌธ์ฅ์ ์์ฑํด์ผ ํ๋ Task์๋ ์ด๋ ต๋ค.
Dense Representation
์ํซ ์ธ์ฝ๋ฉ์ ๋ฌธ์ ์ ์ ๋ณ์์ ํฌ์์ฑ์ด๋ค. token์ ๊ฐ์๋งํผ v๊ฐ์ ๋ฒกํฐ๋ฅผ ๋ง๋ค์ด์ผ ํ๊ณ ๋๋ถ๋ถ์ 0์ธ๋ฐ ๊ทน์์์ ๋ฌธ์์๋ง ์ฐ์ธ๋ค
์ด๋ ํฐ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ด ํ์ํ๊ฒ ํ๋ฉด์ ๋๋ถ๋ถ์ 0์ผ๋ก ๋ผ ์์ด ๋นํจ์จ์ ์ผ๋ก ์ฌ์ฉํ๊ฒ ํ๋ค.
Word2vec : idea
์ด ๋ฐฉ๋ฒ์ ๊ด๊ณ๋ฅผ ์ฐ์ฐ์ผ๋ก ์ค๋ช ํ ์ ์๋ ๋ฒกํฐ ํํ์ด ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
๋ชจ๋ธ ํ์ต์ ๊ฐ์
Token์ ์๋ฏธ๋ ์ฃผ๋ณ Token์ ์ ๋ณด๋ก ํํ๋๋ค
ํ์ตํ๋ ๊ณผ์
CBOW : Continuous Bag-of-Words Model
Skip-Gram
๋ ๊ฐ์ง ๋ฐฉ๋ฒ ๋ชจ๋ ๊ณตํต์ ์ผ๋ก ๋ฌธ์ฅ์ ์๋์ฐ ํํ๋ก ๋ถ๋ถ๋ง ๋ณด๋ ๊ฒ์ ๊ธฐ๋ณธ์ผ๋ก ํ๋ค
CBOW๋ ์ฃผ๋ณ Token์ ๋ฒกํฐ๋ก ๋ณํํด ๋ํ ํ Target์ ๋ง์ถ๋ ๊ฒ์ด๊ณ Skip-Gram์ ๋ชฉ์ ์ Target์ ๋ฒกํฐ๋ก ๋ณํํด ์ฃผ๋ณ Token์ ๋ง์ถ๋ ๊ฒ
Last updated