18 Thu

[AI ์Šค์ฟจ 1๊ธฐ] 10์ฃผ์ฐจ DAY 4

NLP : ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ I

๋‹จ์–ด์˜ ์˜๋ฏธ๋ฅผ ์–ด๋–ป๊ฒŒ ๋‚˜ํƒ€๋‚ผ ๊ฒƒ์ธ๊ฐ€?

  • ๊ธ€์ž์˜ ๋‚˜์—ด

  • One hot encoding

  • ์ข‹์€ ํ‘œํ˜„๋ฐฉ์‹ : ๋‹จ์–ด๊ด€์˜ ๊ด€๊ณ„๋ฅผ ์ž˜ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์–ด์•ผํ•จ

๋‹จ์–ด์˜ ์˜๋ฏธ

  • ์–ด๊ทผ(lemma)

  • ์˜๋ฏธ(sense)

  • ex) mouse

    • ์ฅ

    • ์ปดํ“จํ„ฐ ์žฅ์น˜

  • ex) mouse, mice

    • ํ•˜๋‚˜์˜ ์–ด๊ทผ์„ ๊ฐ€์ง€๊ณ ์žˆ์Œ

  • ์ปดํ“จํ„ฐ์—์„œ ์‚ฌ์šฉํ•˜๊ธฐ ์‰ฌ์šด ํ˜•ํƒœ๊ฐ€ ์•„๋‹˜

๋™์˜์–ด

  • ๋™์˜์–ด๊ฐ€ ๋˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์‚ฌ์ „์ ์œผ๋กœ ๊ฐ™์€ ์˜๋ฏธ

  • ๋ฌธ์žฅ ์†์— ๋‹จ์–ด๋ฅผ ๋‹ค๋ฅธ ๋‹จ์–ด๋กœ ๋Œ€์ฒด ํ–ˆ์„ ๋•Œ ์˜๋ฏธ๊ฐ€ ๋‹ฌ๋ผ์ง€์ง€์•Š๊ณ  ์ž์—ฐ์Šค๋Ÿฝ๋‹ค๋ฉด ๋™์˜์–ด

  • ๊ทธ๋ ‡์ง€๋งŒ ํ•ญ์ƒ ๊ทธ ๋‹จ์–ด๋กœ ๋Œ€์ฒดํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์€ ์•„๋‹ˆ๋‹ค

  • ex) H2O - water

์œ ์‚ฌ์„ฑ

  • ์œ ์‚ฌํ•œ ์˜๋ฏธ๋ฅผ ๊ฐ€์ง

  • ex) car - bicycle, cow - horse

  • ๊ธฐ๊ณ„์ ์œผ๋กœ ์œ ์‚ฌ๋„๋ฅผ ๋น„๊ตํ•˜๋Š” ๊ฒƒ์€ ์‰ฝ์ง€ ์•Š์Œ

์—ฐ๊ด€์„ฑ

  • ๋‹จ์–ด๋“ค์€ ์˜๋ฏธ์˜ ์œ ์‚ฌ์„ฑ ์™ธ์—๋„ ๋‹ค์–‘ํ•œ ๋ฐฉ์‹์œผ๋กœ ์—ฐ๊ด€๋  ์ˆ˜ ์žˆ์Œ

  • Semantic Field

    • ํŠน์ •ํ•œ ์ฃผ์ œ๋‚˜ ์˜์—ญ์„ ๊ณต์œ ํ•˜๋Š” ๋‹จ์–ด๋“ค

    • ex) hospital : surgeon, scalpel, nurse

    • ex) restaurants : waiter, menu, plate

  • Semantic Frame

    • ํŠน์ • ํ–‰์œ„์— ์ฐธ์—ฌํ•˜๋Š” ์ฃผ์ฒด๋“ค์˜ ์—ญํ• ์— ๊ด€ํ•œ ๋‹จ์–ด๋“ค

    • ex) ์ƒ๊ฑฐ๋ž˜ ํ–‰์œ„์— ์ฐธ์—ฌํ•˜๋Š” ์ฃผ์ฒด๋“ค : buy, sell, pay

๋ฒกํ„ฐ๋กœ ์˜๋ฏธ ํ‘œํ˜„ํ•˜๊ธฐ

  • ๋‹จ์–ด๋“ค์€ ์ฃผ๋ณ€์˜ ํ™˜๊ฒฝ์— ์˜ํ•ด ์˜๋ฏธ๊ฐ€ ๊ฒฐ์ •๋œ๋‹ค

    • ์ฃผ๋ณ€์˜ ํ™˜๊ฒฝ : ์ฃผ๋ณ€์˜ ๋‹จ์–ด๋“ค์˜ ๋ถ„ํฌ

  • ๋งŒ์•ฝ A์™€ B๊ฐ€ ๋™์ผํ•œ ์ฃผ๋ณ€ ๋‹จ์–ด๋“ค์˜ ๋ถ„ํฌ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค๋ฉด ๋‘ ๋‹จ์–ด๋Š” ์œ ์‚ฌ์–ด์ด๋‹ค.

  • ๋‹จ์–ด์˜ ์˜๋ฏธ๋ฅผ ๋ถ„ํฌ์  ์œ ์‚ฌ์„ฑ์„ ์‚ฌ์šฉํ•ด ํ‘œํ˜„ํ•˜๊ณ ์ž ํ•œ๋‹ค.

  • ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„๋œ ๋‹จ์–ด๋ฅผ ์ž„๋ฒ ๋”ฉ์ด๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค. ๋ณดํ†ต์€ ๋ฐ€์ง‘๋ฒกํ„ฐ์ธ ๊ฒฝ์šฐ๋ฅผ ์ž„๋ฒ ๋”ฉ์ด๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค.

    • ๋ฐ€์ง‘๋˜์—ˆ๋‹ค๋Š” ๋œป์€ ๊ฐ’์ด 0์ด ์•„๋‹ˆ๋ผ๋Š” ๊ฒƒ

    • ๋ฐ˜๋Œ€๋กœ ํฌ์†Œ๋ฒกํ„ฐ๋Š” ๋Œ€๋ถ€๋ถ„์˜ ๋ฒกํ„ฐ๊ฐ€ 0์ด๋ž€ ๋œป

  • ์ตœ๊ทผ NLP ๋ฐฉ๋ฒ•๋“ค์€ ๋ชจ๋‘ ์ž„๋ฒ ๋”ฉ์„ ์‚ฌ์šฉํ•ด์„œ ๋‹จ์–ด์˜ ์˜๋ฏธ๋ฅผ ํ‘œํ˜„ํ•œ๋‹ค.

์™œ ์ž„๋ฒ ๋”ฉ์„ ์‚ฌ์šฉํ•˜๋Š”๊ฐ€?

  • ์ž„๋ฒ ๋”ฉ์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š๋Š” ๊ฒฝ์šฐ

    • ๊ฐ ์†์„ฑ์€ ํ•œ ๋‹จ์–ด์˜ ์กด์žฌ ์œ ๋ฌด

    • ํ•™์Šต๋ฐ์ดํ„ฐ์™€ ํ…Œ์ŠคํŠธ๋ฐ์ดํ„ฐ์— ๋™์ผํ•œ ๋‹จ์–ด๊ฐ€ ๋‚˜ํƒ€๋‚˜์ง€ ์•Š์œผ๋ฉด ์˜ˆ์ธก ๊ฒฐ๊ณผ๊ฐ€ ์ข‹์ง€ ๋ชปํ•จ

  • ์ž„๋ฒ ๋”ฉ์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝ์šฐ

    • ๊ฐ ์†์„ฑ์€ ๋‹จ์–ด์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ

    • ๋‹จ์–ด์˜ ์กด์žฌ์œ ๋ฌด๋ณด๋‹ค ๋ฒกํ„ฐ์˜ ์†์„ฑ์ด ์ค‘์š”ํ•˜๋‹ค

    • ํ•™์Šต ๋ฐ์ดํ„ฐ

      • GOOD : [0.9, 0.1, -0.5]

      • NICE : [1.1, 0.9, 1.2]

      • ์ฒซ๋ฒˆ์งธ ๋ฒกํ„ฐ์˜ ๊ฐ’์ด ๋‘˜ ๋‹ค ๋†’๋‹ค = > ์ข‹๋‹ค๋ผ๋Š” ํด๋ž˜์Šค C1๊ณผ ๊ด€๋ จ์ด ์žˆ์„ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์Œ

    • ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ

      • TERRIFIC : [0.95, -0.2, 0.1]

      • ํ•™์Šต ๋ฐ์ดํ„ฐ์—๋Š” ํ•œ๋ฒˆ๋„ ๋‚˜ํƒ€๋‚˜์ง€ ์•Š์€ ๋‹จ์–ด์ผ ๊ฒฝ์šฐ, ์ด ๋‹จ์–ด์˜ ์˜๋ฏธ๊ฐ€ ๊ธ์ •์ ์ธ์ง€ ๋ถ€์ •์ ์ธ์ง€๋Š” ์•Œ ์ˆ˜ ์—†์ง€๋งŒ ์ž„๋ฒ ๋”ฉ์œผ๋กœ ํ•™์Šตํ•˜๋Š” ๊ฒฝ์šฐ์—๋Š” C1์˜ ๊ฐ’์ด 1์— ๊ฐ€๊นŒ์šฐ๋ฏ€๋กœ ์ข‹์€ ์˜๋ฏธ๋ผ๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ์Œ

์ž„๋ฒ ๋”ฉ์˜ ์ข…๋ฅ˜

  • ํฌ์†Œ๋ฒกํ„ฐ

    • tf-idf

    • Vector propagation : ๊ฒ€์ƒ‰์—”์ง„์„ ์œ„ํ•œ ์งˆ์˜์–ด, ๋ฌธ์„œ ํ‘œํ˜„

  • ๋ฐ€์ง‘๋ฒกํ„ฐ

    • Word2vec : ํ•™์Šต์ด ๊ฐ„ํŽธํ•จ

    • Glove

NLP : ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ II

Term-document ํ–‰๋ ฌ

  • ๊ฐ ๋ฌธ์„œ๋Š” ๋‹จ์–ด๋“ค์˜ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„๋œ๋‹ค

๋ฒกํ„ฐ์˜ ์œ ์‚ฌ๋„ ๊ณ„์‚ฐํ•˜๊ธฐ

TF-IDF

  • ๋‹จ์–ด์˜ ๋นˆ๋„์ˆ˜๋ฅผ ๊ทธ๋Œ€๋กœ ์‚ฌ์šฉํ•  ๋•Œ์˜ ๋ฌธ์ œ์ 

    • the, it, they๋“ฑ์˜ ๋‹จ์–ด๋“ค์€ ์˜๋ฏธ๋ฅผ ๊ตฌ๋ณ„ํ•˜๋Š”๋ฐ ๋„์›€์ด ๋˜์ง€ ์•Š๋Š”๋‹ค

  • tf-idf

    • ๊ธฐ์กด ๋นˆ๋„์ˆ˜๋งŒ์„ ๊ตฌํ•˜๋Š” ๋ฐฉ๋ฒ•์—์„œ ๋ณด์ •์„ ํ•˜๋Š” ๋ฐฉ๋ฒ•

    • ๋ฌธ์„œ d๋‚ด์— ๋‹จ์–ด t์˜ ์ƒˆ๋กœ์šด ๊ฐ€์ค‘์น˜ ๊ฐ’์„ ๊ณ„์‚ฐํ•œ๋‹ค

  • ๋ฌธ์„œ์— ๋‚˜์˜ค๋Š” ๋‹จ์–ด์˜ ๋นˆ๋„์ˆ˜

  • ๊ทผ๋ฐ ์ด๊ฒƒ์„ ๊ทธ๋Œ€๋กœ ์‚ฌ์šฉํ•˜๊ธฐ๋ณด๋‹ค๋Š” ๋กœ๊ทธ๊ฐ’์„ ์ ์šฉํ•ด์„œ ์ •๊ทœํ™”(๊ฐ’์ด ๋„ˆ๋ฌด ํฌ๊ฒŒ ์˜ฌ๋ผ๊ฐ€๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€)

  • +1์€ ๋ฌดํ•œ๋Œ€๋กœ ์˜ฌ๋ผ๊ฐ€๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€

  • df_t = ๋‹จ์–ด t๋ฅผ ํฌํ•จํ•˜๋Š” ๋ฌธ์„œ๋“ค์˜ ๊ฐœ์ˆ˜

  • idf_t = df_t ์˜ ์—ญ์ˆ˜

tf-idf vector

  • ๊ธธ๋‹ค : 20,000 ~ 50,000

  • ํฌ์†Œ์„ฑ (๋Œ€๋ถ€๋ถ„์˜ ์›์†Œ๊ฐ€ 0)

Word2vec, Glove

  • ์งง๋‹ค : 50 ~ 1,000

  • ๋ฐ€์ง‘์„ฑ (๋Œ€๋ถ€๋ถ„์˜ ์›์†Œ๊ฐ€ 0์ด ์•„๋‹˜)

Dense Vectors

  • dense๊ฐ€ ์„ ํ˜ธ๋˜๋Š” ์ด์œ 

    • ๋” ์ ์€ ๊ฐœ์ˆ˜์˜ ํ•™์Šต ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋ฐ˜

    • ๋” ๋‚˜์€ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ

    • ๋™์˜์–ด์™€ ์œ ์‚ฌ์–ด๋ฅผ ๋” ์ž˜ ํ‘œํ˜„

NLP : ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ III

Word2vec

  • ์ฃผ์–ด์ง„ ๋‹จ์–ด w๋ฅผ ์ธ์ ‘ํ•œ ๋‹จ์–ด๋“ค์˜ ๋นˆ๋„์ˆ˜๋กœ ๋‚˜ํƒ€๋‚ด๋Š” ๋Œ€์‹ , ์ฃผ๋ณ€ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ถ„๋ฅ˜๊ธฐ๋ฅผ ํ•™์Šตํ•˜์ž!

    • ๋‹จ์–ด w๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ ๋‹จ์–ด c๊ฐ€ ์ฃผ๋ณ€์— ๋‚˜ํƒ€๋‚  ํ™•๋ฅ ์€?

  • ๋ชฉํ‘œ๋Š” ๋ชจ๋ธ์˜ ์ตœ์ข…์˜ˆ์ธก๊ฐ’์ด ์•„๋‹ˆ๋ผ ๋ชจ๋ธ ๋‚ด ๋‹จ์–ด w์˜ ๊ฐ€์ค‘์น˜๋ฒกํ„ฐ

  • Self-supervision

    • ์ด ๋ชจ๋ธ์„ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•œ ๋ชฉํ‘œ๊ฐ’์€ ์ด๋ฏธ ๋ฐ์ดํ„ฐ๋‚ด์— ์กด์žฌ

    • ์‚ฌ๋žŒ์ด ์ˆ˜๋™์œผ๋กœ ๋ ˆ์ด๋ธ”์„ ์ƒ์„ฑํ•  ํ•„์š”๊ฐ€ ์—†์Œ

Skip-Gram

  • ํ•œ ๋‹จ์–ด๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ ๊ทธ ์ฃผ๋ณ€ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•  ํ™•๋ฅ ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๋ชจ๋ธ

  • ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ™•๋ฅ ๋ชจ๋ธ์„ ๊ฐ€์ •ํ•œ๋‹ค

  • ๋ฌธ์ œ์ ์€ ๋ถ„๋ชจ ๊ณ„์‚ฐ๋Ÿ‰์ด ๋งŽ๋‹ค

  • ํ•ด๊ฒฐ์ฑ…

    • Noise-constrastive estimation : Normalization constant๋ฅผ ํ•˜๋‚˜์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ํ•™์Šตํ•œ๋‹ค. ์ด์ง„ ๋ถ„๋ฅ˜ ๋ฌธ์ œ์— ํ•ด๋‹นํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ชฉํ‘œํ•จ์ˆ˜๋ฅผ ์ตœ์ ํ™” ์‹œํ‚จ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•ด์„œ ์–ป์–ด์ง€๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๋“ค์ด ์›๋ž˜ likelihood์˜ ์ตœ์ ํ•ด๋ฅผ ๊ทผ์‚ฌํ•œ๋‹ค๋Š” ๊ฒƒ์ด ์ฆ๋ช…๋œ๋‹ค.

    • ์ด๊ฒƒ์„ ์กฐ๊ธˆ ๋” ๋‹จ์ˆœํ™”์‹œํ‚ค๋ฉด negative sampling์ด ๋œ๋‹ค.

    • Word2vec์€ negative sampling์„ ์‚ฌ์šฉํ•œ๋‹ค.

NLP : ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ IV

Word2vec ํ•™์Šต๊ณผ์ • ์š”์•ฝ

  • |V| ๊ฐœ์˜ d์ฐจ์› ์ž„๋ฒ ๋”ฉ์„ ๋žœ๋คํ•˜๊ฒŒ ์ดˆ๊ธฐํ™”

  • ์ฃผ๋ณ€ ๋‹จ์–ด๋“ค์˜ ์Œ์„ positive example๋กœ ์ƒ์„ฑ

  • ๋นˆ๋„์ˆ˜์— ์˜ํ•ด ์ถ”์ถœ๋œ ๋‹จ์–ด๋“ค์˜ ์Œ์„ negative example๋กœ ์ƒ์„ฑ

  • ์œ„ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•ด ๋ถ„๋ฅ˜๊ธฐ ํ•™์Šต

  • ํ•™์Šต๋œ ์ž„๋ฒ ๋”ฉ w๊ฐ€ ์ตœ์ข…๊ฒฐ๊ณผ๋ฌผ

Last updated

Was this helpful?