24 Wed
[ํ์ด์ฌ ๋ฅ๋ฌ๋ ํ์ดํ ์น] PART 05 NLP
02 ๋ฌธ์๋ฅผ ์ซ์๋ก ํํํ๋ ๋ฐฉ๋ฒ
๋ฌธ์ฅ์ ์๋ฏธ๋ฅผ ๋ง๋๋ ๋ฐฉ์
๋ฌธ์ฅ์ ์๋ฏธ ์๋ ๋ถ๋ถ์ผ๋ก ๋๋๋ค
๋๋ ์ง ์๋ฏธ ์๋ ๋ถ๋ถ์ ์ซ์๋ก ๋ฐ๊ฟ ๋ฌธ์ฅ์ ์ซ์๋ก ํํํ๋ค
๊ฐ๋จํ ๋ฐฉ๋ฒ์ ๋์ด์ฐ๊ธฐ๋ฅผ ์ด์ฉํ๋ ๊ฒ
"๋๋ ์ฑ ์ ์์ ์ฌ๊ณผ๋ฅผ ๋จน์๋ค"
๋๋, ์ฑ ์, ์์, ์ฌ๊ณผ๋ฅผ, ๋จน์๋ค
์ด์ ๊ฐ์ด ์๋ฏธ ์๋ ๋ถ๋ถ์ผ๋ก ๋๋๋ ๊ณผ์ ์ Tokenization์ด๋ผ๊ณ ํ๋ฉฐ ์ชผ๊ฐ์ง ๋ถ๋ถ์ Token์ด๋ผ๊ณ ํ๋ค. Lexical Analysis๋ผ๊ณ ๋ ํ๋ค. => ์ฐ์๋ ๋ฌธ์์ ๋์ด์ ์ ์ ํ๊ฒ ์๋ฏธ๋ฅผ ์ง๋ ๋ถ๋ถ์ ๋์ด๋ก ๋ฐ๊พธ๋ ๊ณผ์
Out of Vocabulary(OOV)
Token์ ์ ์ฅํด๋ Vocabulary์ Token์ด ์์ด์ ์ฒ์ ๋ณธ Token์ด ๋์ค๋ ํ์์ OOV๋ผ๊ณ ํ๋ค.
์ด๋ด ๋๋ฅผ ๋๋นํด ํน์ํ Token์ธ <unk>์ ๋ง๋ค์ด ์ฒ์ ๋ณด๋ Token์ <unk>๋ก ๋ณํํ๋๋ก ์ฒ๋ฆฌ
Token์ ๋ชจ์ ๋์ ๋ฌธ์ฅ์ ๋ชจ์์ ๋ง๋ญ์น, Corpus๋ผ๊ณ ํ๋ค
๊ทธ๋ฌ๋ ์ด๋ฌํ ๋ง๋ญ์น๊ฐ ๋ง์์ง๋ฉด ๋ฉ๋ชจ๋ฆฌ์ ๋ชจ๋ธ์ ์ฌ์ด์ฆ๊ฐ ์ปค์ง๊ธฐ ๋๋ฌธ์ ํจ์จ์ ์ธ ๋ฐฉ๋ฒ์ด ํ์ํ๋ค
์๋ฅผ ๋ค์ด ํ์ค์ด์๊ฒ, ํ์คํํ ๋ ๋์ผํ ์๋ฏธ์ด๋ฏ๋ก ์ด๋ฌํ ์ค๋ณต์ ์ธ ์๋ฏธ๋ฅผ ๊ฐ์ง ์ฌ๋ฌ ๋จ์ด๋ฅผ ํจ์จ์ ์ผ๋ก ๊ด๋ฆฌํ๊ธฐ ์ํด์๋ ๋์ด์ฐ๊ธฐ๋ณด๋ค ๋ ์ข์ Tokenizer๊ฐ ํ์
Byte Pair Encoding(BPE)
Character based tokenization
๋์ด์ฐ๊ธฐ๊ฐ ์๋๋ผ ๊ธ์๋ฅผ Token์ผ๋ก ์ฌ์ฉ
์ฅ์
์ฌ์ ์ ํฌ๊ธฐ๊ฐ ์ค์ด๋๋ ์ฅ์ ์ด ์์
OOV ํ์์ ์์จ ์ ์๋ค.
๋จ์
ํํ๋ฒ์ ๋ํ ํ์ต์ด ์ด๋ ต๋ค
๊ธ์ ํ๋๋ ๋ณดํต ์๋ฏธ๋ฅผ ๊ฐ์ง๊ณ ์์ง ์๊ณ ์ฐ์๋ ๋์ด์ด ํน์ ์๋ฏธ๋ฅผ ๊ฐ์ง๊ธฐ ๋๋ฌธ์ ํจํด์ผ๋ก ํ์ตํด ์๋ฏธ๋ฅผ ๋ง๋ค์ด์ผํจ => ์ฌ์ด ์ผ์ ์๋
n-gram Tokenization
1๊ฐ ๋จ์๊ฐ ์๋๋ผ ์ฌ๋ฌ๊ฐ์ ์ฐ์๋ ์๋์ฐ๋ฅผ ๋จ์๋ก ์ดํด๋ณด๋ ๊ฐ๋
n์ ๋ฐ๋ผ uni, bi, tri-gram์ผ๋ก ๋๋๋ฉฐ n >= 4์ผ ๊ฒฝ์ฐ n-gram์ผ๋ก ๋ํ๋
์ฅ์
์ฐ์์ ์ผ๋ก ์ฌ์ฉ๋๋ ์ฉ์ด๋ฅผ ์ ์ฐพ์๋
๊ณ ์ ์ ์๋ฏธ๊ฐ ์๋ ๋์ด๋๋ ๋จ์ด๋ก ์์ฑ๋๋ ์๋ก์ด ์๋ฏธ๋ฅผ ์ ํ์ ํจ
๋์ด์ฐ๊ธฐ๋ ๊ธ์๋ก๋ ์ก์ ์ ์์๋ Token์ ์ฐพ์ ์ ์์
๋จ์
์ธ๋ชจ ์๋ ์กฐํฉ์ด ๋๋ฌด ๋ง์ด ์์ฑ๋๋ค
ํนํ ํ๊ตญ์ด๋ ์ด๋ฏธ ๋ณํ๊ฐ ๋ค์ํด์ ์๋ฏธ๋ ๋น์ทํ์ง๋ง ์๋ก ๋ค๋ฅธ Token์ด ๋งค์ฐ ๋ง์ด ์๊ฒจ๋ ๊ฒ
Token ์ฌ์ ์ด ๊ณผํ๊ฒ ์ปค์ง์ง๋ง ์๋ฏธ๊ฐ ์๊ฑฐ๋ ์์ฃผ ์ฌ์ฉ๋์ง ์๋ Token์ผ๋ก ๊ตฌ์ฑ๋์ด ๋นํจ์จ์
Byte Pair Encoding
Data Compression ๋ถ์ผ์์ ์ฌ์ฉ๋๋ ๊ฐ๋
๋ฐ๋ณต์ ์ผ๋ก ๋์ค๋ ๋ฐ์ดํฐ์ ์ฐ์๋ ํจํด์ ์นํํ๋ ๋ฐฉ์์ ์ฌ์ฉํด ๋ฐ์ดํฐ๋ฅผ ์ข ๋ ํจ์จ์ ์ผ๋ก ์ ์ฅํ๋ ๊ฐ๋
2015๋ <Nerual Machine Translation of Rare Word with Subword Units> ๋ ผ๋ฌผ์ ์์์ผ๋ก NP์์ ์์ฃผ ์ฌ์ฉ๋๋ Tokenizer Algorithm์ด ๋จ
n-gram์์ ์ฐ์๋ ๊ธ์์ ๋์ด์ด ์๋ ์ฌ๋ฌ ๋ฒ ๋ํ๋๋ ๊ธ์์ ๋์ด์ ์๋ฏธ๊ฐ ์๋ค๊ณ ์๊ฐํด ๋ฐ๋ก Token์ผ๋ก ๋ง๋๋ ๋ฐฉ์์ผ๋ก ๊ฐ์
์๊ณ ๋ฆฌ์ฆ
๋จ์ด ํ์๋ฅผ ๊ธฐ๋กํ ์ฌ์ ์ ๋ง๋ ๋ค. ์ด ๋ ์ฌ์ ์ ๋จ์ด ๊ธ์๋ ๋ชจ๋ ๋์ด ํํ
๊ฐ ๋จ์ด์ ๋ํด ์ฐ์๋ 2๊ฐ์ ๊ธ์์ ์ซ์๋ฅผ ์ธ์ด ๊ฐ์ฅ ๋ง์ด ๋์ค๋ ๊ธ์ 2๊ฐ์ ์กฐํฉ์ ์ฐพ๋๋ค
๋ ๊ธ์๋ฅผ ํฉ์ณ ๊ธฐ์กด์ ์ฌ์ ์ ๋จ์ด๋ฅผ ์์ ํ๋ค
๋ฏธ๋ฆฌ ์ ํด ๋์ ํ์๋งํผ 2~3๋ฒ์ ๊ณผ์ ์ ๋ฐ๋ณตํ๋ค
Word Embeding
๋ฌธ์ฅ์ ์ซ์๋ก ํํํ ๊ฒ์ ๋ ๊ฒ์ผ๋ก ์ฌ์ฉํ๋ฉด ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์ธ์๋ก ์ฌ์ฉํ ๋ ๋ฌธ์ ๊ฐ ์๋ค.
์ด ์ซ์๋ ๋จ์ํ ์ธ๋ฑ์ค๋ฅผ ์๋ฏธํ๊ธฐ ๋๋ฌธ
Token์ ์ ํํ ๊ฐ์๋ก ๊ฐ์ง ๋ณ์๋ก ์๊ฐํ๊ณ ๋ฒ์ฃผํ ์๋ฃ๋ก ํํํ๊ธฐ ๋๋ฌธ์ ๋ฐ์ํ๋ ๋ฌธ์
์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๋ ๋ฒ์ฃผํ ์๋ฃ ๋ณ์๋ฅผ ํํํ๋ ๋ฐฉ๋ฒ ์ค ํ ๊ฐ์ง๊ฐ ๋ฐ๋ก ์-ํซ ์ธ์ฝ๋ฉ
One-Hot Encoding
Corpus๋ฅผ ๋ชจ๋ Tokenizationํด Voca๋ฅผ ๋ง๋ค๊ณ ๊ฐ Tk ๋ง๋ค Index๋ฅผ ์ ํด์ผ ํ๋ค.
Frequency-based Method
๋จ์ด์ ํ์๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํํํ๋ ๋ฐฉ์์ ๋ง ๊ทธ๋๋ก ๋ฌธ์ฅ์ ์๋ Token์ ๋ฑ์ฅ ํ์๋ฅผ ์ธ์ด ํํํ๋ ๋ฐฉ์
Token์ ํ์์๋ง ์ง์คํ๊ธฐ ๋๋ฌธ์ ์ฃผ๋จธ๋ ๊ฐ์ ๊ณณ์ Token์ ๋ชจ์ ๋๋๋ค๊ณ ํด์ Bag of Words(BoW)๋ผ๊ณ ํ๋ค.
'a', 'an', 'the', 'in' ๋ฑ์ ๋จ์ด๋ ๋น๋์๊ฐ ๊ต์ฅํ ๋์๋ฐ ๋ฑ์ฅ ๋น๋๊ฐ ์ ์ Token์ ์ ์ํฅ์ ๋ผ์น๊ฒ ๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด TF-IDF๋ผ๋ ํํ๋ฐฉ๋ฒ์ด ์กด์ฌํ๋ค
TF-IDF
Term Frequency - Inverse Documnet Frequency
idf๋ Token์ด ๋ฑ์ฅํ๋ ์์ ๋น์จ์ ์ญ์์ด๋ค.
a๋ the ๋ฑ์ Token์ TF๊ฐ ๋์ง๋ง ๋ชจ๋ ๋ฌธ์ฅ(๋ฌธ์)์ ๋ฑ์ฅํ๋ฏ๋ก idf๋ log(1)์ ๊ฐ๊น์ ์ง๋ค. => 0์ ๊ฐ๊น์ด ์
๋ฐ๋ผ์ tf-idf ๋ tf์ idf๋ฅผ ๊ณฑํจ์ผ๋ก์จ ๊ณผ๋ํ๊ฒ ๋์๋ tf์์น๋ฅผ ๋ฎ์ถฐ์ค๋ค.
๋ฐ๋๋ก ํฌ๊ทํ Token์ ๊ฒฝ์ฐ์๋ ๋ถ์กฑํ TF๋ฅผ ์ฌ๋ ค์ฃผ๋ ํจ๊ณผ๋ฅผ ๋ณด์ธ๋ค
ํ์ ๊ธฐ๋ฐ์ ๋ฐฉ๋ฒ์ ๋ฌธ์๋ฅผ ๋น๊ต์ ์ฝ๊ฒ ํํํ ์ ์๊ณ ํน์ Task์ ๋ํด ๋์ด๋ ๋๋น ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค(ex ์คํธ)
๋จ์ ์ ๋จ์ด์ ์์๊ฐ ๋ฌด์๋๋ค๋ ์ ์ด๋ฉฐ NLG์ ๊ฐ์ด ์๋ก์ด ๋ฌธ์ฅ์ ์์ฑํด์ผ ํ๋ Task์๋ ์ด๋ ต๋ค.
Dense Representation
์ํซ ์ธ์ฝ๋ฉ์ ๋ฌธ์ ์ ์ ๋ณ์์ ํฌ์์ฑ์ด๋ค. token์ ๊ฐ์๋งํผ v๊ฐ์ ๋ฒกํฐ๋ฅผ ๋ง๋ค์ด์ผ ํ๊ณ ๋๋ถ๋ถ์ 0์ธ๋ฐ ๊ทน์์์ ๋ฌธ์์๋ง ์ฐ์ธ๋ค
์ด๋ ํฐ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ด ํ์ํ๊ฒ ํ๋ฉด์ ๋๋ถ๋ถ์ 0์ผ๋ก ๋ผ ์์ด ๋นํจ์จ์ ์ผ๋ก ์ฌ์ฉํ๊ฒ ํ๋ค.
Word2vec : idea
์ด ๋ฐฉ๋ฒ์ ๊ด๊ณ๋ฅผ ์ฐ์ฐ์ผ๋ก ์ค๋ช ํ ์ ์๋ ๋ฒกํฐ ํํ์ด ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
๋ชจ๋ธ ํ์ต์ ๊ฐ์
Token์ ์๋ฏธ๋ ์ฃผ๋ณ Token์ ์ ๋ณด๋ก ํํ๋๋ค
ํ์ตํ๋ ๊ณผ์
CBOW : Continuous Bag-of-Words Model
Skip-Gram
๋ ๊ฐ์ง ๋ฐฉ๋ฒ ๋ชจ๋ ๊ณตํต์ ์ผ๋ก ๋ฌธ์ฅ์ ์๋์ฐ ํํ๋ก ๋ถ๋ถ๋ง ๋ณด๋ ๊ฒ์ ๊ธฐ๋ณธ์ผ๋ก ํ๋ค
CBOW๋ ์ฃผ๋ณ Token์ ๋ฒกํฐ๋ก ๋ณํํด ๋ํ ํ Target์ ๋ง์ถ๋ ๊ฒ์ด๊ณ Skip-Gram์ ๋ชฉ์ ์ Target์ ๋ฒกํฐ๋ก ๋ณํํด ์ฃผ๋ณ Token์ ๋ง์ถ๋ ๊ฒ
Last updated
Was this helpful?