17 Wed
[AI ์ค์ฟจ 1๊ธฐ] 10์ฃผ์ฐจ DAY 3
NLP : ๋ฌธ์๋ถ๋ฅ I
๋ฌธ์ ๋ถ๋ฅ
ํ ์คํธ๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์, ํ ์คํธ๊ฐ ์ด๋ค ์ข ๋ฅ์ ๋ฒ์ฃผ์ ์ํ๋์ง๋ฅผ ๊ตฌ๋ถํ๋ ์์
๋ค์ํ ๋ฌธ์ ๋ถ๋ฅ ๋ฌธ์ ๋ค
๋ฌธ์์ ๋ฒ์ฃผ, ์ฃผ์ ๋ถ๋ฅ
์ด๋ฉ์ผ ์คํธ ๋ถ๋ฅ
๊ฐ์ฑ ๋ถ๋ฅ : ๊ธ์ ์ ์ธ์ง ๋ถ์ ์ ์ธ์ง
์ธ์ด ๋ถ๋ฅ : ์ฃผ์ด์ง ๋ฌธ์ ๊ฐ ์ด๋ค ์ธ์ด๋ก ์ฐ์ฌ ์๋๊ฐ?
์ฃผ์ ๋ถ๋ฅ
CS๋ ผ๋ฌธ์ ๊ฐ์ง๊ณ CS ์ฃผ์ ๋ฅผ ๋ถ๋ฅํ๋ ๊ฒ
๊ฐ์ฑ ๋ถ๋ฅ
์ฃผ์ด์ง ๋ฌธ์์ ๋ํด์ ํด๋น ๋ฌธ์๊ฐ ๊ธ์ ์ ์ธ์ง ๋ถ์ ์ ์ธ์ง ํ์
์ํ ๋ฆฌ๋ทฐ๊ฐ ๊ธ/๋ถ ์ ์ ์ธ์ง ํ์ ํ๊ธฐ
๊ธ์ ์ : richly, great, awesome, love
๋ถ์ ์ : pathetic, worst, awful, ridiculously
์ ํ์ ๋ํ ๋์ค์ ๋ฐ์
์ ์น์ธ์ ๋ํ ์ฌ๋๋ค์ ์๊ฐ
๊ฐ์ฑ ๋ถ๋ฅ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ ๊ฑฐ ๊ฒฐ๊ณผ๋ฅผ ์์ธก
๊ฐ์ ์ (๋ฐฉํฉ, ์ฌํ, ๊ธฐ์จ), ํ๋์ (์ข์ํจ, ์ฌ๋ํจ, ์ซ์ดํจ), ์ฑ๊ฒฉ์ (๋ถ์ํจ, ์ ๋์ , ํธ์์ ) ์ธก๋ฉด์ด ์์ง๋ง ๊ธ/๋ถ์ ์ ์ธ ํ๋๋ง์ ํ์ ํ๋ ๊ฐ๋จํ ์์ ์ ๋ค๋ฃฐ ๊ฒ.
๋ฌธ์ ๋ถ๋ฅ : ์ ์
๋ฌธ์๋ฅผ ์ฃผ๋ก d ๋ผ๊ณ ํจ
๊ฐ๋ฅํ ๋ชจ๋ ํด๋์ค๋ฅผ C ={c1, c2, ...} ๋ผ๊ณ ํ๋ค
์ถ๋ ฅ ๊ฒฐ๊ณผ๋ : ์์ธก๋ ํด๋์ค cn
๋ฌธ์ ๋ถ๋ฅ ๋ฐฉ๋ฒ - ๊ท์น๊ธฐ๋ฐ ๋ชจ๋ธ
๋จ์ด๋ค์ ์กฐํฉ์ ์ฌ์ฉํ ๊ท์น๋ค์ ์ฌ์ฉ
spam : black-list, dollars & you have been selected, etc
Precision์ ๋์ง๋ง recall์ด ๋ฎ์
์ฌ๋์ด ๊ท์น์ ๋ง๋ค๊ธฐ ๋๋ฌธ์ ์ ํ๋๋ ๋์
์ง์์ ์ธ ์ ๋ฐ์ดํธ๋ก ์ ํ๋์ ๊ธฐ์ฌ
์ปค๋ฒํ์ง ๋ชปํ๋ ๊ฒฝ์ฐ๋ ๊ต์ฅํ ๋ง๋ค
๋ฐ๋ผ์ ์ฌ๋์ด ๋ง๋ ๊ท์น๋ณด๋ค ๋จธ์ ๋ฌ๋ ํ์ต์ ํตํด ์์ฑ๋ ๊ท์น์ ๋ฐ๋ฅด๋ ๊ฒ์ด ์ข์
๋จธ์ ๋ฌ๋๋ ์ฌ์ค์ ๋ณต์กํ ๊ท์น์ ๋ง๋ ๋ค๊ณ ๋ณผ ์ ์๋ค. ํ์ง๋ง ์ฌ๋์ด ์ด๋ฅผ ๋ง๋ค๊ธฐ๋ ์ฝ์ง ์์
Snorkel
๋ชจ๋ธ ์ค ํ๋
๊ท์น๊ธฐ๋ฐ ๋ชจ๋ธ๊ณผ ๋จธ์ ๋ฌ๋์ ํจ๊ป ์ฌ์ฉํ๋ ๋ฐฉ์
๊ฐ๊ฐ์ ๊ท์น์ labeling function์ผ๋ก ๊ฐ์ฃผ
์ ๋ฌธ๊ฐ๊ฐ labeling ํ๋ ๊ฒ์ด ์๋ ํน์ ๊ท์น์์์ labeling์ ํ๋ค.
factor graph๋ฅผ ๊ฐ์ง๊ณ ํ๋ฅ ์ ๋ชฉํ๊ฐ์ ์์ฑํ๋ค
generative model
๊ธ์ 1, ๋ถ์ 0 ์ด ์๋ 0.7, 0.2 ๋ฑ์ ํ๋ฅ ์ ์์น๋ฅผ ์ฌ์ฉํ๋ค
์ด๋ labeling๋์ง ์์ unlabed ๋ฐ์ดํฐ๋ค์ ๋ํด์ labelingํด์ฃผ๋ ์์ ์ด๋ค
labeled data๊ฐ ๋ถ์กฑํ๊ฑฐ๋ ํด๋์ค ์ ์ ์์ฒด๊ฐ ์ ๋งคํ ๊ฒฝ์ฐ ๋งค์ฐ ์ ์ฉํ๋ค => ๊ฐ์ฑ ๋ถ๋ฅ ์์ฒด๋ ๊ต์ฅํ ์ ๋งคํ ํด๋์ค์ ์ํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค.
๋ฌธ์ ํ๋ํ๋์ labeling ํ๊ธฐ๋ ์ด๋ ต๋ค.
ํ์คํ ๊ท์น ์์ฑ์ ์ฌ์ด ํธ์ ์ํจ.
์ด ํ ๋ค์ํ ๋ชจ๋ธ์ ์ฌ์ฉํ ์ ์๋ค
๋ฌธ์ ๋ถ๋ฅ ๋ฐฉ๋ฒ๋ค - ์ง๋ํ์ต
input : ๋ฌธ์ d
classes : C
training set : m = (d1, c1) ,,, (dm, cm)
classifier(output) : y:d -> c
๋ค์ํ ๋ชจ๋ธ ์ฌ์ฉ ๊ฐ๋ฅ
Naive Bayes
Logistic regression
Nerual networks
k-Nearest Neighbors
NLP : ๋ฌธ์๋ถ๋ฅ II
Naive Bayes ๋ถ๋ฅ๊ธฐ
๊ฐ์ ์ด๋ฆ์ด Naive Bayes์
๊ทธ๋์ ์ด๋ฆ์ด ๋์ด๋ธ ๋ฒ ์ด์ฆ ๋ถ๋ฅ๊ธฐ
์ด ๋ชจ๋ธ์ Bag of Words ํํ์ ๊ธฐ๋ฐํจ
ํ ์คํธ ํํ ๋ฐฉ๋ฒ์ด ์ด ๋ฐฉ๋ฒ
์์๋ฅผ ๊ณ ๋ คํ์ง ์์ ๋จ์ด๋ค์ ์งํฉ์ด๋ผ๊ณ ์๊ฐํ๋ฉด ๋๋ค
(0, 5, 0, 3, ... , 0)
๊ฐ๊ฐ์ vocaburary์ ํ๋จ์ด => |v|๊ฐ์ ์์๋ฅผ ๊ฐ์ง ๋ฒกํฐ
์์์ ๊ฐ์ ๋น๋์๋ฅผ ์๋ฏธ
Naive Bayes ๋ถ๋ฅ๊ธฐ - ์์ํ
๋ฒ ์ด์ฆ ์ ๋ฆฌ๋ฅผ ์ด์ฉํด์ ์ ์์ฑ
๊ฐ์ฅ ํ๋ฅ ์ด ๋์ ํด๋์ค๋ฅผ ์ฐพ๋ ๊ฒ์ด ๋ถ๋ฅ๊ธฐ์ ๋ชฉํ
๋ถ๋ชจ ์ ๊ฑฐ : ์ต๋ํ ํ๋ ํด๋์ค๋ฅผ ์ฐพ๊ธฐ ์ํด์ P(d)๋ ๊ด๋ จ์ด ์๊ธฐ ๋๋ฌธ
d๊ฐ n๊ฐ์ ์์ฑ์ด ์๋ค๊ณ ๊ฐ์ ํ๊ณ x1 ๋ถํฐ xn์ผ๋ก ํํ
d๋ฅผ n๊ฐ์ ํน์ง์ผ๋ก ๋ถ๋ฅํ๋ค ๋ณด๋ ํ๋ผ๋ฏธํฐ๊ฐ ์์ฃผ ๋ง์์ง๋ค. => ํ์ต ๋ฐ์ดํฐ๊ฐ ์ ์ผ๋ฉด ์ข์ ์ฑ๋ฅ์ ๋ด๊ธฐ ์ด๋ ค์
Bag of Words ๊ฐ์ : ๋จ์ด์ ์์น๋ ํ๋ฅ ์ ์ํฅ์ ์ฃผ์ง ์๋๋ค.
์กฐ๊ฑด๋ถ ๋ ๋ฆฝ ๊ฐ์ : ํด๋์ค๊ฐ ์ฃผ์ด์ง๋ฉด ์์ฑ๋ค์ ๋ ๋ฆฝ์ ์ด๋ค
์ด๋ฅผ ์์์ผ๋ก ํํํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค
์กฐ๊ฑด๋ถ ๋ ๋ฆฝ ๊ฐ์ ์ ํตํด ๋ถ๋ฆฌ๋ฅผ ํ๊ฒ ๋๋ฉด ๊ฐ๊ฐ์ ํด๋์ค์ ํด๋นํ๋ ํน์ฑ๋ง ์กด์ฌํ๋ฏ๋ก ํ๋ผ๋ฏธํฐ๊ฐ ์ ์ด์ง๊ฒ ๋๋ค => ์ฃผ์ด์ง ๋ฐ์ดํฐ๊ฐ ์ ๋๋ผ๋ ํ์ต ๊ฐ๋ฅ
Naive Bayes ๋ถ๋ฅ๊ธฐ๋ ์ ๋ ฅ๊ฐ์ ๊ดํ ์ ํ๋ชจ๋ธ์ด๋ค.
NLP : ๋ฌธ์๋ถ๋ฅ III
Naive Bayes ๋ถ๋ฅ๊ธฐ - ํ์ต
MLE
Zero ํ๋ฅ ๋ฌธ์
๋ฐ์ดํฐ์ ๋ถ์กฑ์ผ๋ก ํ๋ฅ ์ด 0์ด ๋ ์ ์์
ํด๋์ค์ ํน์ฑ์ ๊ณฑ์ผ๋ก ํํ๋๋ฏ๋ก ํ๋๋ผ๋ 0์ด ๋๋ฉด ์ ์ฒด ํ๋ฅ ์ด 0์ด ๋๊ธฐ ๋๋ฌธ
์ด ๋ ๋ผํ๋ผ์ค ์ค๋ฌด๋ฉ ๋ฐฉ๋ฒ์ ํตํด ํด๊ฒฐํ ์ ์๋ค
Naive Basyes ๋ถ๋ฅ๊ธฐ - ์์ฝ
naive ํ์ง๋ ์์
์ ์ ํ์ต๋ฐ์ดํฐ๋ก๋ ์ข์ ์ฑ๋ฅ๊ณผ ๋น ๋ฅธ ์๋
์กฐ๊ฑด๋ถ๋ ๋ฆฝ ๊ฐ์ ์ด ์ค์ ๋ฐ์ดํฐ์์ ์ฑ๋ฆฝํ ๋ ์ต์ ์ ๋ชจ๋ธ
๋ฌธ์ ๋ถ๋ฅ๋ฅผ ์ํ ๋ฒ ์ด์ค๋ผ์ธ ๋ชจ๋ธ๋ก ์ ํฉํ๋ค
Last updated
Was this helpful?