15 Mon

[AI ์Šค์ฟจ 1๊ธฐ] 10์ฃผ์ฐจ DAY 1

NLP : ํ…์ŠคํŠธ ์ „์ฒ˜๋ฆฌ I ~ II

์ž์—ฐ์–ด ์ฒ˜๋ฆฌ

  • ์ž์—ฐ์–ด์˜ ์˜๋ฏธ๋ฅผ ์ปดํ“จํ„ฐ๋กœ ๋ถ„์„ํ•ด์„œ ํŠน์ • ์ž‘์—…์„ ์œ„ํ•ด ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ๊ฒƒ

  • ์‘์šฉ ๋ถ„์•ผ

    • ๊ธฐ๊ณ„ ๋ฒˆ์—ญ

    • ๊ฐ์„ฑ ๋ถ„์„

    • ๋ฌธ์„œ ๋ถ„๋ฅ˜

    • ์งˆ์˜ ์‘๋‹ต

    • ์ฑ—๋ด‡

    • ์–ธ์–ด ์ƒ์„ฑ

    • ์Œ์„ฑ ์ธ์‹

    • ์ถ”์ฒœ ์‹œ์Šคํ…œ

๋‹จ์–ด

  • ๋ฌธ์žฅ์„ ๊ตฌ์„ฑํ•˜๋Š” ๋‹จ์–ด์˜ ๊ฐฏ์ˆ˜

    • ๋ฌธ์žฅ๋ถ€ํ˜ธ๋ฅผ ๋‹จ์–ด๋กœ ๊ณ ๋ คํ•ด์•ผ ํ•˜๋Š”๊ฐ€ => ์ƒํ™ฉ๋งˆ๋‹ค ๋‹ค๋ฆ„

  • ๊ตฌ์–ด์ฒด ๋ฌธ์žฅ์˜ ๊ฒฝ์šฐ

    • i do uh main mainly business data processing

    • ํ•œ๋ฒˆ ๋”๋“ฌ๋Š” ๊ฒฝ์šฐ

      • Fragments(๊นจ์–ด์ง„ ๋‹จ์–ด) : main-

      • filled pauses : uh, um

  • ํ‘œ์ œ์–ด์™€ ๋‹จ์–ดํ˜•ํƒœ

    • ํ‘œ์ œ์–ด(lemma) : ์—ฌ๋Ÿฌ ๋‹จ์–ด๋“ค์ด ๊ณต์œ ํ•˜๋Š” ๋ฟŒ๋ฆฌ๋‹จ์–ด

    • ๋‹จ์–ดํ˜•ํƒœ(wordform) : ๊ฐ™์€ ํ‘œ์ œ์–ด๋ฅผ ๊ณต์œ ํ•˜์ง€๋งŒ ๋‹ค์–‘ํ•œ ํ˜•ํƒœ๋ฅผ ๊ฐ€์งˆ ์ˆ˜ ์žˆ์Œ

    • cat๊ณผ cats๊ฐ€ ์˜ˆ

  • ๊ทธ ์™ธ

    • Vocabulary : ๋‹จ์–ด์˜ ์ง‘ํ•ฉ

    • Type : Vocabulary์˜ ํ•œ ์›์†Œ

    • Token : ๋ฌธ์žฅ ๋‚ด์— ๋‚˜ํƒ€๋‚˜๋Š” ํ•œ ๋‹จ์–ด

    • They picnicked by the pool, then lay back on the grass and looked at the stars

      • 16 tokens

      • 14 types ( 'the' is reduplicated )

๋ง๋ญ‰์น˜

  • ํ•˜๋‚˜์˜ ๋ง๋ญ‰์น˜(corpus)๋Š” ๋Œ€์šฉ๋Ÿ‰์˜ ๋ฌธ์„œ๋“ค์˜ ์ง‘ํ•ฉ

  • ๋ง๋ญ‰์น˜์˜ ํŠน์„ฑ์€ ์•„๋ž˜์˜ ์š”์†Œ๋“ค์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง€๊ฒŒ ๋จ

    • ์–ธ์–ด

    • ๋ฐฉ์–ธ

    • ์žฅ๋ฅด

    • ๊ธ€์“ด์ด์˜ ์†์„ฑ (๋‚˜์ด, ์„ฑ๋ณ„, ์ธ์ข… ๋“ฑ)

  • ๋‹ค์–‘ํ•œ ๋ง๋ญ‰์น˜์— ์ ์šฉํ•  ์ˆ˜ ์žˆ๋Š” NLP ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ๋ฐ”๋žŒ์งํ•˜๋‹ค

ํ…์ŠคํŠธ ์ •๊ทœํ™”

  • ๋ชจ๋“  ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ๋Š” ํ…์ŠคํŠธ ์ •๊ทœํ™”๋ฅผ ํ•„์š”๋กœ ํ•œ๋‹ค

    • ํ† ํฐํ™”

    • ๋‹จ์–ด ์ •๊ทœํ™”

    • ๋ฌธ์žฅ ๋ถ„์ ˆํ™”

  • Unix ๋ช…๋ น์œผ๋กœ ๊ฐ„๋‹จํ•˜๊ฒŒ ํ† ํฐํ™” ํ•˜๊ธฐ

    • tr -sc 'A-Za-z' '\n' < hamlet.txt

  • ๋นˆ๋„์ˆ˜๋กœ ์ •๋ ฌ

    • tr -sc 'A-Za-z' '\n' < hamlet.txt | sort | uniq -c | sort -n -r

  • ์†Œ๋ฌธ์ž๋กœ ๋ณ€ํ™˜ํ•ด์„œ ์ •๋ ฌ

    • tr 'A-Z' a-z' < hamlet. txt | tr -sc 'a-z' | sort | uniq -c | sort -n -r

  • ๋ฌธ์ œ์ ๋“ค

    • ๋ฌธ์žฅ๋ถ€ํ˜ธ๋“ค์„ ํ•ญ์ƒ ๋ฌด์‹œํ•  ์ˆ˜๋Š” ์—†์Œ

      • Ph.D, $12.50, 01/02/2021, www.yahoo.com ๋“ฑ

      • ๋ฌธ์žฅ๋ถ€ํ˜ธ๊ฐ€ ๋‹จ์–ด์˜ ์˜๋ฏธ๋ฅผ ๋ช…ํ™•ํ•˜๊ฒŒ ํ•˜๋Š” ๊ฒฝ์šฐ๋Š” ์ œ์™ธ์‹œํ‚ค์ง€ ์•Š๋Š” ๊ฒƒ์ด ์ข‹๋‹ค

    • ์ ‘์–ด(clitics)

      • we're => we are

    • ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋‹จ์–ด๊ฐ€ ๋ถ™์–ด์•ผ ์˜๋ฏธ๊ฐ€ ์žˆ๋Š” ๊ฒฝ์šฐ

      • New York, rock'n'roll

  • ์ค‘๊ตญ์–ด์˜ ๊ฒฝ์šฐ

    • ์ค‘๊ตญ์–ด๋Š” ๋„์–ด์“ฐ๊ธฐ๊ฐ€ ์—†์Œ

  • ํ•œ๊ตญ์–ด์˜ ๊ฒฝ์šฐ

    • ํ† ํฐํ™”๊ฐ€ ๋ณต์žกํ•จ

    • ๋„์–ด์“ฐ๊ธฐ๊ฐ€ ์ž˜ ์ง€์ผœ์ง€์ง€ ์•Š๊ณ  ๋„์–ด์“ฐ๊ธฐ๊ฐ€ ์ œ๋Œ€๋กœ ๋˜์—ˆ๋”๋ผ๋„ ํ•œ ์–ด์ ˆ์€ ํ•˜๋‚˜ ์ด์ƒ์˜ ์˜๋ฏธ ๋‹จ์œ„๋“ค์ด ์žˆ์„ ์ˆ˜ ์žˆ๋‹ค.

    • ํ˜•ํƒœ์†Œ

      • ์ž๋ฆฝํ˜•ํƒœ์†Œ : ๋ช…์‚ฌ, ๋Œ€๋ช…์‚ฌ, ๋ถ€์‚ฌ ๋“ฑ

      • ์˜์กดํ˜•ํƒœ์†Œ : ๋‹ค๋ฅธ ํ˜•ํƒœ์†Œ์™€ ๊ฒฐํ•ฉํ•˜์—ฌ ์‚ฌ์šฉ๋˜๋Š” ํ˜•ํƒœ์†Œ => ์ ‘์‚ฌ, ์–ด๋ฏธ, ์กฐ์‚ฌ ๋“ฑ

      • ๋‹จ์–ด๋ณด๋‹ค ์ž‘์€ ๋‹จ์œ„๋กœ ํ† ํฐํ™”๊ฐ€ ํ•„์š”ํ•œ๋‹ค

Subword Tokenization

  • ํ•™์Šต๋ฐ์ดํ„ฐ์—์„œ ๋ณด์ง€ ๋ชปํ–ˆ๋˜ ์ƒˆ๋กœ์šด ๋‹จ์–ด๊ฐ€ ๋‚˜ํƒ€๋‚œ๋‹ค๋ฉด?

    • ํ•™์Šต๋ฐ์ดํ„ฐ : low, new, newer

    • ํ…Œ์ŠคํŠธ๋ฐ์ดํ„ฐ : lower

    • -er, -est ๋“ฑ๊ณผ ๊ฐ™์€ ํ˜•ํƒœ์†Œ๋ฅผ ๋ถ„๋ฆฌํ•  ์ˆ˜ ์žˆ์œผ๋ฉด ๋” ์ข‹๋‹ค.

  • Algorithms

    • Byte-Pair Encoding (BPE)

    • WordPiece

    • Unigram language modeling

  • ๋‘ ๊ฐ€์ง€ ๊ตฌ์„ฑ์š”์†Œ

    • Token learner : ๋ง๋ญ‰์น˜์—์„œ vocabulary๋ฅผ ๋งŒ๋“ค์–ด ๋ƒ„

    • Token segmenter : ์ƒˆ๋กœ์šด ๋ฌธ์žฅ์„ ํ† ํฐํ™”ํ•จ

BPE

  • Vocabulary๋ฅผ ๋‹จ์ผ ๋ฌธ์ž๋“ค์˜ ์ง‘ํ•ฉ์œผ๋กœ ์ดˆ๊ธฐํ™”ํ•œ๋‹ค

  • ๋‹ค์Œ์„ ๋ฐ˜๋ณตํ•œ๋‹ค

    • ๋ง๋ญ‰์น˜์—์„œ ์—ฐ์†์ ์œผ๋กœ ๊ฐ€์žฅ ๋งŽ์ด ๋ฐœ์ƒํ•˜๋Š” ๋‘ ๊ฐœ์˜ ๊ธฐํ˜ธ๋“ค์„ ์ฐพ๋Š”๋‹ค

    • ๋‘ ๊ธฐํ˜ธ๋“ค์„ ๋ณ‘ํ•ฉํ•˜๊ณ  ์ƒˆ๋กœ์šด ๊ธฐํ˜ธ๋กœ vocabulary์— ์ถ”๊ฐ€ํ•œ๋‹ค

    • ๋ง๋ญ‰์น˜์—์„œ ๊ทธ ๋‘ ๊ธฐํ˜ธ๋“ค์„ ๋ณ‘ํ•ฉ๋œ ๊ธฐํ˜ธ๋กœ ๋ชจ๋‘ ๊ต์ฒดํ•œ๋‹ค

Wordpiece

  • BPE๋Š” ๋นˆ๋„์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์ง€๋งŒ Wordpiece๋Š” likelihood๋ฅผ ์ตœ๋Œ€ํ™”์‹œํ‚ค๋Š” ์Œ์„ ์ฐพ๋Š”๋‹ค

  • Corpus C์— ๋Œ€ํ•ด์„œ C1๊ณผ C2๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ์ด์— ๋Œ€ํ•ด P(C)๊ฐ€ ๋†’์€ Corpus๋ฅผ ์„ ํƒํ•œ๋‹ค. ์ด P(C)๋Š” ์–ธ์–ด๋ชจ๋ธ๋กœ ๊ตฌํ•˜๋ฉฐ ์ด๋Š” ๋‹ค์Œ ์‹œ๊ฐ„์— ์„ค๋ช…

  • ํ™•๋ฅ ๋ชจ๋ธ(์–ธ์–ด๋ชจ๋ธ)์„ ์‚ฌ์šฉํ•œ๋‹ค. => ์™„๋ฒฝํ•œ ์–ธ์–ด๋ชจ๋ธ์ด๋ผ๊ณ  ํ•˜๊ธฐ๋Š” ์–ด๋ ค์šด ์ ์ด ์žˆ๋‹ค

  • ํ•™์Šต๋ฐ์ดํ„ฐ๋‚ด์˜ ๋ฌธ์žฅ์„ ๊ด€์ธก ํ™•๋ฅ ๋ณ€์ˆ˜๋กœ ์ •์˜ํ•œ๋‹ค

  • Tokenization์„ ์ž ์žฌ ํ™•๋ฅ ๋ณ€์ˆ˜๋กœ ์ •์˜ํ•œ๋‹ค

  • ๋ฐ์ดํ„ฐ์˜ ์ฃผ๋ณ€ ์šฐ๋„๋ฅผ ์ตœ๋Œ€ํ™”์‹œํ‚ค๋Š” tokenization์„ ๊ตฌํ•œ๋‹ค.

๋‹จ์–ด์ •๊ทœํ™”

  • U.S.A / USA / US

  • uhhuh / uh-huh

  • Fed / fed

  • am / is / be/ are

Case folding

  • ๋ชจ๋“  ๋ฌธ์ž๋“ค์„ ์†Œ๋ฌธ์žํ™”ํ•จ

  • ์ผ๋ฐ˜ํ™”๋ฅผ ์œ„ํ•ด์„œ ์‚ฌ์šฉ => ํ•™์Šต๋ฐ์ดํ„ฐ์™€ ํ…Œ์ŠคํŠธ๋ฐ์ดํ„ฐ ์‚ฌ์ด์˜ ๋ถˆ์ผ์น˜ ๋ฌธ์ œ์— ๋„์›€

  • ์ •๋ณด๊ฒ€์ƒ‰, ์Œ์„ฑ์ธ์‹ ๋“ฑ์—์„œ ์œ ์šฉ

  • ๊ฐ์„ฑ๋ถ„์„ ๋“ฑ์˜ ๋ฌธ์„œ๋ถ„๋ฅ˜์—์„œ๋Š” ๋Œ€์†Œ๋ฌธ์ž ๊ตฌ๋ถ„์ด ์œ ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค

Lemmatization

  • ์–ด๊ทผ์„ ์‚ฌ์šฉํ•ด์„œ ํ‘œํ˜„

์ตœ๊ทผ ๊ฒฝํ–ฅ

  • ๋‹จ์–ด ์ •๊ทœํ™”๊ฐ€ ํ•„์š”ํ•œ ๊ทผ๋ณธ์ ์ธ ์ด์œ 

    • ๋‹จ์–ด ์‚ฌ์ด์˜ ์œ ์‚ฌ์„ฑ์„ ์ดํ•ดํ•ด์•ผํ•˜๊ธฐ ๋•Œ๋ฌธ

    • ์ •๊ทœํ™”๋ฅผ ํ†ตํ•ด ๊ฐ™์€ ์˜๋ฏธ๋ฅผ ๊ฐ€์ง„ ์—ฌ๋Ÿฌ ํ˜•ํƒœ์˜ ๋‹จ์–ด๋“ค์„ ํ•˜๋‚˜์˜ ๋‹จ์–ด๋กœ ๋Œ€์‘์‹œํ‚ค๊ธฐ ์œ„ํ•จ

  • ๋‹จ์–ด๋ฅผ ์ €์ฐจ์› ๋ฐ€์ง‘ ๋ฒกํ„ฐ๋กœ ๋Œ€์‘์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค๋ฉด?

    • ๋‹จ์–ด์ž„๋ฒ ๋”ฉ์„ ์‚ฌ์šฉํ•ด์„œ ๋‹จ์–ด๋ฅผ ํ‘œํ˜„ํ•˜๊ฒŒ ๋˜๋ฉด ๋‹จ์–ด ์ •๊ทœํ™”์˜ ํ•„์š”์„ฑ์ด ์ค„์–ด๋“ค๊ฒŒ ๋œ๋‹ค

Last updated

Was this helpful?