18 Thu
[AI ์ค์ฟจ 1๊ธฐ] 10์ฃผ์ฐจ DAY 4
NLP : ๋จ์ด ์๋ฒ ๋ฉ I
๋จ์ด์ ์๋ฏธ๋ฅผ ์ด๋ป๊ฒ ๋ํ๋ผ ๊ฒ์ธ๊ฐ?
๊ธ์์ ๋์ด
One hot encoding
์ข์ ํํ๋ฐฉ์ : ๋จ์ด๊ด์ ๊ด๊ณ๋ฅผ ์ ํํํ ์ ์์ด์ผํจ
๋จ์ด์ ์๋ฏธ
์ด๊ทผ(lemma)
์๋ฏธ(sense)
ex) mouse
์ฅ
์ปดํจํฐ ์ฅ์น
ex) mouse, mice
ํ๋์ ์ด๊ทผ์ ๊ฐ์ง๊ณ ์์
์ปดํจํฐ์์ ์ฌ์ฉํ๊ธฐ ์ฌ์ด ํํ๊ฐ ์๋
๋์์ด
๋์์ด๊ฐ ๋๊ธฐ ์ํด์๋ ์ฌ์ ์ ์ผ๋ก ๊ฐ์ ์๋ฏธ
๋ฌธ์ฅ ์์ ๋จ์ด๋ฅผ ๋ค๋ฅธ ๋จ์ด๋ก ๋์ฒด ํ์ ๋ ์๋ฏธ๊ฐ ๋ฌ๋ผ์ง์ง์๊ณ ์์ฐ์ค๋ฝ๋ค๋ฉด ๋์์ด
๊ทธ๋ ์ง๋ง ํญ์ ๊ทธ ๋จ์ด๋ก ๋์ฒดํ ์ ์๋ ๊ฒ์ ์๋๋ค
ex) H2O - water
์ ์ฌ์ฑ
์ ์ฌํ ์๋ฏธ๋ฅผ ๊ฐ์ง
ex) car - bicycle, cow - horse
๊ธฐ๊ณ์ ์ผ๋ก ์ ์ฌ๋๋ฅผ ๋น๊ตํ๋ ๊ฒ์ ์ฝ์ง ์์
์ฐ๊ด์ฑ
๋จ์ด๋ค์ ์๋ฏธ์ ์ ์ฌ์ฑ ์ธ์๋ ๋ค์ํ ๋ฐฉ์์ผ๋ก ์ฐ๊ด๋ ์ ์์
Semantic Field
ํน์ ํ ์ฃผ์ ๋ ์์ญ์ ๊ณต์ ํ๋ ๋จ์ด๋ค
ex) hospital : surgeon, scalpel, nurse
ex) restaurants : waiter, menu, plate
Semantic Frame
ํน์ ํ์์ ์ฐธ์ฌํ๋ ์ฃผ์ฒด๋ค์ ์ญํ ์ ๊ดํ ๋จ์ด๋ค
ex) ์๊ฑฐ๋ ํ์์ ์ฐธ์ฌํ๋ ์ฃผ์ฒด๋ค : buy, sell, pay
๋ฒกํฐ๋ก ์๋ฏธ ํํํ๊ธฐ
๋จ์ด๋ค์ ์ฃผ๋ณ์ ํ๊ฒฝ์ ์ํด ์๋ฏธ๊ฐ ๊ฒฐ์ ๋๋ค
์ฃผ๋ณ์ ํ๊ฒฝ : ์ฃผ๋ณ์ ๋จ์ด๋ค์ ๋ถํฌ
๋ง์ฝ A์ B๊ฐ ๋์ผํ ์ฃผ๋ณ ๋จ์ด๋ค์ ๋ถํฌ๋ฅผ ๊ฐ์ง๊ณ ์๋ค๋ฉด ๋ ๋จ์ด๋ ์ ์ฌ์ด์ด๋ค.
๋จ์ด์ ์๋ฏธ๋ฅผ ๋ถํฌ์ ์ ์ฌ์ฑ์ ์ฌ์ฉํด ํํํ๊ณ ์ ํ๋ค.
๋ฒกํฐ๋ก ํํ๋ ๋จ์ด๋ฅผ ์๋ฒ ๋ฉ์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค. ๋ณดํต์ ๋ฐ์ง๋ฒกํฐ์ธ ๊ฒฝ์ฐ๋ฅผ ์๋ฒ ๋ฉ์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค.
๋ฐ์ง๋์๋ค๋ ๋ป์ ๊ฐ์ด 0์ด ์๋๋ผ๋ ๊ฒ
๋ฐ๋๋ก ํฌ์๋ฒกํฐ๋ ๋๋ถ๋ถ์ ๋ฒกํฐ๊ฐ 0์ด๋ ๋ป
์ต๊ทผ NLP ๋ฐฉ๋ฒ๋ค์ ๋ชจ๋ ์๋ฒ ๋ฉ์ ์ฌ์ฉํด์ ๋จ์ด์ ์๋ฏธ๋ฅผ ํํํ๋ค.
์ ์๋ฒ ๋ฉ์ ์ฌ์ฉํ๋๊ฐ?
์๋ฒ ๋ฉ์ ์ฌ์ฉํ์ง ์๋ ๊ฒฝ์ฐ
๊ฐ ์์ฑ์ ํ ๋จ์ด์ ์กด์ฌ ์ ๋ฌด
ํ์ต๋ฐ์ดํฐ์ ํ ์คํธ๋ฐ์ดํฐ์ ๋์ผํ ๋จ์ด๊ฐ ๋ํ๋์ง ์์ผ๋ฉด ์์ธก ๊ฒฐ๊ณผ๊ฐ ์ข์ง ๋ชปํจ
์๋ฒ ๋ฉ์ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ
๊ฐ ์์ฑ์ ๋จ์ด์๋ฒ ๋ฉ ๋ฒกํฐ
๋จ์ด์ ์กด์ฌ์ ๋ฌด๋ณด๋ค ๋ฒกํฐ์ ์์ฑ์ด ์ค์ํ๋ค
ํ์ต ๋ฐ์ดํฐ
GOOD : [0.9, 0.1, -0.5]
NICE : [1.1, 0.9, 1.2]
์ฒซ๋ฒ์งธ ๋ฒกํฐ์ ๊ฐ์ด ๋ ๋ค ๋๋ค = > ์ข๋ค๋ผ๋ ํด๋์ค C1๊ณผ ๊ด๋ จ์ด ์์ ๊ฐ๋ฅ์ฑ์ด ๋์
ํ ์คํธ ๋ฐ์ดํฐ
TERRIFIC : [0.95, -0.2, 0.1]
ํ์ต ๋ฐ์ดํฐ์๋ ํ๋ฒ๋ ๋ํ๋์ง ์์ ๋จ์ด์ผ ๊ฒฝ์ฐ, ์ด ๋จ์ด์ ์๋ฏธ๊ฐ ๊ธ์ ์ ์ธ์ง ๋ถ์ ์ ์ธ์ง๋ ์ ์ ์์ง๋ง ์๋ฒ ๋ฉ์ผ๋ก ํ์ตํ๋ ๊ฒฝ์ฐ์๋ C1์ ๊ฐ์ด 1์ ๊ฐ๊น์ฐ๋ฏ๋ก ์ข์ ์๋ฏธ๋ผ๋ ๊ฒ์ ์ ์ ์์
์๋ฒ ๋ฉ์ ์ข ๋ฅ
ํฌ์๋ฒกํฐ
tf-idf
Vector propagation : ๊ฒ์์์ง์ ์ํ ์ง์์ด, ๋ฌธ์ ํํ
๋ฐ์ง๋ฒกํฐ
Word2vec : ํ์ต์ด ๊ฐํธํจ
Glove
NLP : ๋จ์ด ์๋ฒ ๋ฉ II
Term-document ํ๋ ฌ
๊ฐ ๋ฌธ์๋ ๋จ์ด๋ค์ ๋ฒกํฐ๋ก ํํ๋๋ค
๋ฒกํฐ์ ์ ์ฌ๋ ๊ณ์ฐํ๊ธฐ
TF-IDF
๋จ์ด์ ๋น๋์๋ฅผ ๊ทธ๋๋ก ์ฌ์ฉํ ๋์ ๋ฌธ์ ์
the, it, they๋ฑ์ ๋จ์ด๋ค์ ์๋ฏธ๋ฅผ ๊ตฌ๋ณํ๋๋ฐ ๋์์ด ๋์ง ์๋๋ค
tf-idf
๊ธฐ์กด ๋น๋์๋ง์ ๊ตฌํ๋ ๋ฐฉ๋ฒ์์ ๋ณด์ ์ ํ๋ ๋ฐฉ๋ฒ
๋ฌธ์ d๋ด์ ๋จ์ด t์ ์๋ก์ด ๊ฐ์ค์น ๊ฐ์ ๊ณ์ฐํ๋ค
๋ฌธ์์ ๋์ค๋ ๋จ์ด์ ๋น๋์
๊ทผ๋ฐ ์ด๊ฒ์ ๊ทธ๋๋ก ์ฌ์ฉํ๊ธฐ๋ณด๋ค๋ ๋ก๊ทธ๊ฐ์ ์ ์ฉํด์ ์ ๊ทํ(๊ฐ์ด ๋๋ฌด ํฌ๊ฒ ์ฌ๋ผ๊ฐ๋ ๊ฒ์ ๋ฐฉ์ง)
+1์ ๋ฌดํ๋๋ก ์ฌ๋ผ๊ฐ๋ ๊ฒ์ ๋ฐฉ์ง
df_t = ๋จ์ด t๋ฅผ ํฌํจํ๋ ๋ฌธ์๋ค์ ๊ฐ์
idf_t = df_t ์ ์ญ์
tf-idf vector
๊ธธ๋ค : 20,000 ~ 50,000
ํฌ์์ฑ (๋๋ถ๋ถ์ ์์๊ฐ 0)
Word2vec, Glove
์งง๋ค : 50 ~ 1,000
๋ฐ์ง์ฑ (๋๋ถ๋ถ์ ์์๊ฐ 0์ด ์๋)
Dense Vectors
dense๊ฐ ์ ํธ๋๋ ์ด์
๋ ์ ์ ๊ฐ์์ ํ์ต ํ๋ผ๋ฏธํฐ ์๋ฐ
๋ ๋์ ์ผ๋ฐํ ๋ฅ๋ ฅ
๋์์ด์ ์ ์ฌ์ด๋ฅผ ๋ ์ ํํ
NLP : ๋จ์ด ์๋ฒ ๋ฉ III
Word2vec
์ฃผ์ด์ง ๋จ์ด w๋ฅผ ์ธ์ ํ ๋จ์ด๋ค์ ๋น๋์๋ก ๋ํ๋ด๋ ๋์ , ์ฃผ๋ณ ๋จ์ด๋ฅผ ์์ธกํ๋ ๋ถ๋ฅ๊ธฐ๋ฅผ ํ์ตํ์!
๋จ์ด w๊ฐ ์ฃผ์ด์ก์ ๋ ๋จ์ด c๊ฐ ์ฃผ๋ณ์ ๋ํ๋ ํ๋ฅ ์?
๋ชฉํ๋ ๋ชจ๋ธ์ ์ต์ข ์์ธก๊ฐ์ด ์๋๋ผ ๋ชจ๋ธ ๋ด ๋จ์ด w์ ๊ฐ์ค์น๋ฒกํฐ
Self-supervision
์ด ๋ชจ๋ธ์ ํ์ตํ๊ธฐ ์ํ ๋ชฉํ๊ฐ์ ์ด๋ฏธ ๋ฐ์ดํฐ๋ด์ ์กด์ฌ
์ฌ๋์ด ์๋์ผ๋ก ๋ ์ด๋ธ์ ์์ฑํ ํ์๊ฐ ์์
Skip-Gram
ํ ๋จ์ด๊ฐ ์ฃผ์ด์ก์ ๋ ๊ทธ ์ฃผ๋ณ ๋จ์ด๋ฅผ ์์ธกํ ํ๋ฅ ์ ์ต๋ํํ๋ ๋ชจ๋ธ
๋ค์๊ณผ ๊ฐ์ ํ๋ฅ ๋ชจ๋ธ์ ๊ฐ์ ํ๋ค
๋ฌธ์ ์ ์ ๋ถ๋ชจ ๊ณ์ฐ๋์ด ๋ง๋ค
ํด๊ฒฐ์ฑ
Noise-constrastive estimation : Normalization constant๋ฅผ ํ๋์ ํ๋ผ๋ฏธํฐ๋ก ํ์ตํ๋ค. ์ด์ง ๋ถ๋ฅ ๋ฌธ์ ์ ํด๋นํ๋ ์๋ก์ด ๋ชฉํํจ์๋ฅผ ์ต์ ํ ์ํจ๋ค. ์ด๋ ๊ฒ ํด์ ์ป์ด์ง๋ ํ๋ผ๋ฏธํฐ๋ค์ด ์๋ likelihood์ ์ต์ ํด๋ฅผ ๊ทผ์ฌํ๋ค๋ ๊ฒ์ด ์ฆ๋ช ๋๋ค.
์ด๊ฒ์ ์กฐ๊ธ ๋ ๋จ์ํ์ํค๋ฉด negative sampling์ด ๋๋ค.
Word2vec์ negative sampling์ ์ฌ์ฉํ๋ค.
NLP : ๋จ์ด ์๋ฒ ๋ฉ IV
Word2vec ํ์ต๊ณผ์ ์์ฝ
|V| ๊ฐ์ d์ฐจ์ ์๋ฒ ๋ฉ์ ๋๋คํ๊ฒ ์ด๊ธฐํ
์ฃผ๋ณ ๋จ์ด๋ค์ ์์ positive example๋ก ์์ฑ
๋น๋์์ ์ํด ์ถ์ถ๋ ๋จ์ด๋ค์ ์์ negative example๋ก ์์ฑ
์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด ๋ถ๋ฅ๊ธฐ ํ์ต
ํ์ต๋ ์๋ฒ ๋ฉ w๊ฐ ์ต์ข ๊ฒฐ๊ณผ๋ฌผ
Last updated
Was this helpful?