15 Mon
[AI ์ค์ฟจ 1๊ธฐ] 10์ฃผ์ฐจ DAY 1
NLP : ํ
์คํธ ์ ์ฒ๋ฆฌ I ~ II
์์ฐ์ด ์ฒ๋ฆฌ
์์ฐ์ด์ ์๋ฏธ๋ฅผ ์ปดํจํฐ๋ก ๋ถ์ํด์ ํน์ ์์ ์ ์ํด ์ฌ์ฉํ ์ ์๋๋ก ํ๋ ๊ฒ
์์ฉ ๋ถ์ผ
๊ธฐ๊ณ ๋ฒ์ญ
๊ฐ์ฑ ๋ถ์
๋ฌธ์ ๋ถ๋ฅ
์ง์ ์๋ต
์ฑ๋ด
์ธ์ด ์์ฑ
์์ฑ ์ธ์
์ถ์ฒ ์์คํ
๋จ์ด
๋ฌธ์ฅ์ ๊ตฌ์ฑํ๋ ๋จ์ด์ ๊ฐฏ์
๋ฌธ์ฅ๋ถํธ๋ฅผ ๋จ์ด๋ก ๊ณ ๋ คํด์ผ ํ๋๊ฐ => ์ํฉ๋ง๋ค ๋ค๋ฆ
๊ตฌ์ด์ฒด ๋ฌธ์ฅ์ ๊ฒฝ์ฐ
i do uh main mainly business data processing
ํ๋ฒ ๋๋ฌ๋ ๊ฒฝ์ฐ
Fragments(๊นจ์ด์ง ๋จ์ด) : main-
filled pauses : uh, um
ํ์ ์ด์ ๋จ์ดํํ
ํ์ ์ด(lemma) : ์ฌ๋ฌ ๋จ์ด๋ค์ด ๊ณต์ ํ๋ ๋ฟ๋ฆฌ๋จ์ด
๋จ์ดํํ(wordform) : ๊ฐ์ ํ์ ์ด๋ฅผ ๊ณต์ ํ์ง๋ง ๋ค์ํ ํํ๋ฅผ ๊ฐ์ง ์ ์์
cat๊ณผ cats๊ฐ ์
๊ทธ ์ธ
Vocabulary : ๋จ์ด์ ์งํฉ
Type : Vocabulary์ ํ ์์
Token : ๋ฌธ์ฅ ๋ด์ ๋ํ๋๋ ํ ๋จ์ด
They picnicked by the pool, then lay back on the grass and looked at the stars
16 tokens
14 types ( 'the' is reduplicated )
๋ง๋ญ์น
ํ๋์ ๋ง๋ญ์น(corpus)๋ ๋์ฉ๋์ ๋ฌธ์๋ค์ ์งํฉ
๋ง๋ญ์น์ ํน์ฑ์ ์๋์ ์์๋ค์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๊ฒ ๋จ
์ธ์ด
๋ฐฉ์ธ
์ฅ๋ฅด
๊ธ์ด์ด์ ์์ฑ (๋์ด, ์ฑ๋ณ, ์ธ์ข ๋ฑ)
๋ค์ํ ๋ง๋ญ์น์ ์ ์ฉํ ์ ์๋ NLP ์๊ณ ๋ฆฌ์ฆ์ด ๋ฐ๋์งํ๋ค
ํ ์คํธ ์ ๊ทํ
๋ชจ๋ ์์ฐ์ด ์ฒ๋ฆฌ๋ ํ ์คํธ ์ ๊ทํ๋ฅผ ํ์๋ก ํ๋ค
ํ ํฐํ
๋จ์ด ์ ๊ทํ
๋ฌธ์ฅ ๋ถ์ ํ
Unix ๋ช ๋ น์ผ๋ก ๊ฐ๋จํ๊ฒ ํ ํฐํ ํ๊ธฐ
tr -sc 'A-Za-z' '\n' < hamlet.txt
๋น๋์๋ก ์ ๋ ฌ
tr -sc 'A-Za-z' '\n' < hamlet.txt | sort | uniq -c | sort -n -r
์๋ฌธ์๋ก ๋ณํํด์ ์ ๋ ฌ
tr 'A-Z' a-z' < hamlet. txt | tr -sc 'a-z' | sort | uniq -c | sort -n -r
๋ฌธ์ ์ ๋ค
๋ฌธ์ฅ๋ถํธ๋ค์ ํญ์ ๋ฌด์ํ ์๋ ์์
Ph.D, $12.50, 01/02/2021, www.yahoo.com ๋ฑ
๋ฌธ์ฅ๋ถํธ๊ฐ ๋จ์ด์ ์๋ฏธ๋ฅผ ๋ช ํํ๊ฒ ํ๋ ๊ฒฝ์ฐ๋ ์ ์ธ์ํค์ง ์๋ ๊ฒ์ด ์ข๋ค
์ ์ด(clitics)
we're => we are
์ฌ๋ฌ ๊ฐ์ ๋จ์ด๊ฐ ๋ถ์ด์ผ ์๋ฏธ๊ฐ ์๋ ๊ฒฝ์ฐ
New York, rock'n'roll
์ค๊ตญ์ด์ ๊ฒฝ์ฐ
์ค๊ตญ์ด๋ ๋์ด์ฐ๊ธฐ๊ฐ ์์
ํ๊ตญ์ด์ ๊ฒฝ์ฐ
ํ ํฐํ๊ฐ ๋ณต์กํจ
๋์ด์ฐ๊ธฐ๊ฐ ์ ์ง์ผ์ง์ง ์๊ณ ๋์ด์ฐ๊ธฐ๊ฐ ์ ๋๋ก ๋์๋๋ผ๋ ํ ์ด์ ์ ํ๋ ์ด์์ ์๋ฏธ ๋จ์๋ค์ด ์์ ์ ์๋ค.
ํํ์
์๋ฆฝํํ์ : ๋ช ์ฌ, ๋๋ช ์ฌ, ๋ถ์ฌ ๋ฑ
์์กดํํ์ : ๋ค๋ฅธ ํํ์์ ๊ฒฐํฉํ์ฌ ์ฌ์ฉ๋๋ ํํ์ => ์ ์ฌ, ์ด๋ฏธ, ์กฐ์ฌ ๋ฑ
๋จ์ด๋ณด๋ค ์์ ๋จ์๋ก ํ ํฐํ๊ฐ ํ์ํ๋ค
Subword Tokenization
ํ์ต๋ฐ์ดํฐ์์ ๋ณด์ง ๋ชปํ๋ ์๋ก์ด ๋จ์ด๊ฐ ๋ํ๋๋ค๋ฉด?
ํ์ต๋ฐ์ดํฐ : low, new, newer
ํ ์คํธ๋ฐ์ดํฐ : lower
-er, -est ๋ฑ๊ณผ ๊ฐ์ ํํ์๋ฅผ ๋ถ๋ฆฌํ ์ ์์ผ๋ฉด ๋ ์ข๋ค.
Algorithms
Byte-Pair Encoding (BPE)
WordPiece
Unigram language modeling
๋ ๊ฐ์ง ๊ตฌ์ฑ์์
Token learner : ๋ง๋ญ์น์์ vocabulary๋ฅผ ๋ง๋ค์ด ๋
Token segmenter : ์๋ก์ด ๋ฌธ์ฅ์ ํ ํฐํํจ
BPE
Vocabulary๋ฅผ ๋จ์ผ ๋ฌธ์๋ค์ ์งํฉ์ผ๋ก ์ด๊ธฐํํ๋ค
๋ค์์ ๋ฐ๋ณตํ๋ค
๋ง๋ญ์น์์ ์ฐ์์ ์ผ๋ก ๊ฐ์ฅ ๋ง์ด ๋ฐ์ํ๋ ๋ ๊ฐ์ ๊ธฐํธ๋ค์ ์ฐพ๋๋ค
๋ ๊ธฐํธ๋ค์ ๋ณํฉํ๊ณ ์๋ก์ด ๊ธฐํธ๋ก vocabulary์ ์ถ๊ฐํ๋ค
๋ง๋ญ์น์์ ๊ทธ ๋ ๊ธฐํธ๋ค์ ๋ณํฉ๋ ๊ธฐํธ๋ก ๋ชจ๋ ๊ต์ฒดํ๋ค
Wordpiece
BPE๋ ๋น๋์๋ฅผ ์ฌ์ฉํ์ง๋ง Wordpiece๋ likelihood๋ฅผ ์ต๋ํ์ํค๋ ์์ ์ฐพ๋๋ค
Corpus C์ ๋ํด์ C1๊ณผ C2๋ฅผ ์์ฑํ๊ณ ์ด์ ๋ํด P(C)๊ฐ ๋์ Corpus๋ฅผ ์ ํํ๋ค. ์ด P(C)๋ ์ธ์ด๋ชจ๋ธ๋ก ๊ตฌํ๋ฉฐ ์ด๋ ๋ค์ ์๊ฐ์ ์ค๋ช
ํ๋ฅ ๋ชจ๋ธ(์ธ์ด๋ชจ๋ธ)์ ์ฌ์ฉํ๋ค. => ์๋ฒฝํ ์ธ์ด๋ชจ๋ธ์ด๋ผ๊ณ ํ๊ธฐ๋ ์ด๋ ค์ด ์ ์ด ์๋ค
ํ์ต๋ฐ์ดํฐ๋ด์ ๋ฌธ์ฅ์ ๊ด์ธก ํ๋ฅ ๋ณ์๋ก ์ ์ํ๋ค
Tokenization์ ์ ์ฌ ํ๋ฅ ๋ณ์๋ก ์ ์ํ๋ค
๋ฐ์ดํฐ์ ์ฃผ๋ณ ์ฐ๋๋ฅผ ์ต๋ํ์ํค๋ tokenization์ ๊ตฌํ๋ค.
๋จ์ด์ ๊ทํ
U.S.A / USA / US
uhhuh / uh-huh
Fed / fed
am / is / be/ are
Case folding
๋ชจ๋ ๋ฌธ์๋ค์ ์๋ฌธ์ํํจ
์ผ๋ฐํ๋ฅผ ์ํด์ ์ฌ์ฉ => ํ์ต๋ฐ์ดํฐ์ ํ ์คํธ๋ฐ์ดํฐ ์ฌ์ด์ ๋ถ์ผ์น ๋ฌธ์ ์ ๋์
์ ๋ณด๊ฒ์, ์์ฑ์ธ์ ๋ฑ์์ ์ ์ฉ
๊ฐ์ฑ๋ถ์ ๋ฑ์ ๋ฌธ์๋ถ๋ฅ์์๋ ๋์๋ฌธ์ ๊ตฌ๋ถ์ด ์ ์ฉํ ์ ์๋ค
Lemmatization
์ด๊ทผ์ ์ฌ์ฉํด์ ํํ
์ต๊ทผ ๊ฒฝํฅ
๋จ์ด ์ ๊ทํ๊ฐ ํ์ํ ๊ทผ๋ณธ์ ์ธ ์ด์
๋จ์ด ์ฌ์ด์ ์ ์ฌ์ฑ์ ์ดํดํด์ผํ๊ธฐ ๋๋ฌธ
์ ๊ทํ๋ฅผ ํตํด ๊ฐ์ ์๋ฏธ๋ฅผ ๊ฐ์ง ์ฌ๋ฌ ํํ์ ๋จ์ด๋ค์ ํ๋์ ๋จ์ด๋ก ๋์์ํค๊ธฐ ์ํจ
๋จ์ด๋ฅผ ์ ์ฐจ์ ๋ฐ์ง ๋ฒกํฐ๋ก ๋์์ํฌ ์ ์๋ค๋ฉด?
๋จ์ด์๋ฒ ๋ฉ์ ์ฌ์ฉํด์ ๋จ์ด๋ฅผ ํํํ๊ฒ ๋๋ฉด ๋จ์ด ์ ๊ทํ์ ํ์์ฑ์ด ์ค์ด๋ค๊ฒ ๋๋ค
Last updated
Was this helpful?