2 Tue
[AI ์ค์ฟจ 1๊ธฐ] 12์ฃผ์ฐจ DAY 2
Recommendation system : ์ปจํ
์ธ ๊ธฐ๋ฐ ์ถ์ฒ ์์ง ๊ฐ๋ฐ
๋ทํ๋ฆญ์ค ํ๋ผ์ด์ฆ ๊ฐ์
2006๋ ๋ถํฐ 3๋ ๊ฐ ์ด์๋ ๋ทํ๋ฆญ์ค์ ๊ธฐ๋ ๋น์ ์ธ ์ถ์ฒ ์์ง ๊ฒฝ์ง๋ํ
๋ทํ๋ฆญ์ค ์ถ์ฒ ์์คํ ํ์ง์ 10% ๊ฐ์ ํ๋ ํ์๊ฒ $1M ์์ฌ ์ฝ์
RMSE๊ฐ ํ๊ฐ ๊ธฐ์ค
๋ทํ๋ฆญ์ค ๋ธ๋๋ ์ธ์ง๋๊ฐ ์ฌ๋ผ๊ฐ
ํ๋ผ์ด๋ฒ์ ์ด์๋ ์ ๊ธฐ๋จ
์ด๋ฅผ ๊ธฐํญ์ ๋ก ์บ๊ธ๊ณผ ๊ฐ์ ๋จธ์ ๋ฌ๋ ๊ฒฝ์ง๋ํ ํ๋ซํผ์ด ๋ฑ์ฅ
๋ทํ๋ฆญ์ค ํ๋ผ์ด์ฆ ์ฐ์นํ๊ณผ ์๊ณ ๋ฆฌ์ฆ
์ด ๋ํ๋ฅผ ํตํด ํ์ ํํฐ๋ง์ด ํ๋จ๊ณ ๋ฐ์ ํจ
SVD๋ฅผ ํ์ฉ
์์๋ธ ๋ฐฉ์์ ๋ชจ๋ธ๋ค์ด ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์
๋๋ฌด ๊ธด ์คํ์๊ฐ ๋๋ฌธ์ ์ค์ ๋ก ์ฌ์ฉํ์ง๋ ๋ชปํจ
๋ค์ํ ์๊ณ ๋ฆฌ์ฆ๋ค์ด ๋ ผ๋ฌธ์ผ๋ก ๋ฐํ๋จ
์์๋ธ๊ณผ ๋๋ค ํฌ๋ ์คํธ
๋ชจ๋ธ์ ํ๋๋ง ์ด์ฉํ๋ ๊ฒ ์๋๋ผ ์ฌ๋ฌ ๋ชจ๋ธ์ ์ด์ฉํด์ ๊ฐ์ฅ ๋ง์ด ์์ธก๋ ํด๋์ค๋ฅผ ์ ํ
ํ๊ท ์ด๋ ์ค์๊ฐ ๋๋ ๋ค์๊ฒฐ ๋ฐฉ์์ผ๋ก ๊ฒฐ์
์ฑ๋ฅ์ ์ข์ง๋ง ํ๋ จ๊ณผ ์์ธก ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆฐ๋ค๋ ๋จ์ ์กด์ฌ
์ถ์ฒ ์์ง์ ๋ฐ์ ์ญ์ฌ
์๋ง์กด์ด ์์ดํ ๊ธฐ๋ฐ ํ์ ํํฐ๋ง ๋ ผ๋ฌธ ๋ฐํ, 2001
๋ทํ๋ฆญ์ค ํ๋ผ์ด์ฆ, 2006-2009
๋ฅ๋ฌ๋์ด ์ถ์ฒ์์ง์ ์ฐ์ผ ์ ์์์ ์ฆ๋ช
๋ฅ๋ฌ๋์ด ์ปจํ ์ธ ๊ธฐ๋ฐ ์์ ์ถ์ฒ์ ์ฌ์ฉ๋จ, 2010
๋ฅ๋ฌ๋์ ๊ธฐ๋ฐ์ผ๋กํ ์ถ์ฒ์ด ํ๊ธฐ๋ฅผ ๋ ๊ธฐ ์์, 2016
์คํ ์ธ์ฝ๋ ๊ธฐ๋ฐ์ผ๋ก ๋ณต์กํ ํ๋ ฌ ๊ณ์ฐ์ ๋จ์ํํ๋ ๋ฐฉ์
์ ๋ฐ๋ฏธ ์ถ์ฒ ์ดํด๋ณด๊ธฐ
๋ฌธ์ ์ ์ : ํ์๋ค์๊ฒ ๊ด์ฌ์์ ๋งํ ๊ฐ์๋ฅผ ๋จผ์ ๋ณด์ฌ์ฃผ๋ ๊ฒ
์ถ์ฒ UI
๊ฒฉ์ ๊ธฐ๋ฐ
๋ค์ํ ์ถ์ฒ ์ ๋๋ค์ด ์กด์ฌ
๋ช ๊ฐ์ ์ ๋์ ์ด๋ ์์๋ก ๋ณด์ฌ์ค์ง ๊ฒฐ์ก : ์ ๋ ์ ํ๊ณผ ๋ญํน
ํ์ด์ง ์์ฑ ์๊ฐ๊ณผ ์ฌ์ฉ์ ๋ง์กฑ๋๋ ๋ฐ๋น๋ก. => ๋๋ฌด ๋ง์ ์ ๋์ ์ญํจ๊ณผ
์จ๋ผ์ธ ๊ฐ์ ๋ฉํ ๋ฐ์ดํฐ
๋ถ๋ฅ ์ฒด๊ณ => ์นดํ ๊ณ ๋ฆฌ์ ์๋ธ ์นดํ ๊ณ ๋ฆฌ
ํ๊ทธ => ํค์๋
๊ฐ์ฌ๊ฐ ํ๊ทธ์ ๋ถ๋ฅ ์ฒด๊ณ ์ ํํด์ผํจ. ์ฌ๋์ด ํ์ง ์์ผ๋ฉด ๊ต์ฅํ ํ์ด ๋๋ ์ผ.
๋ค์ํ ํ๋ ๊ธฐ๋ฐ ์ถ์ฒ
ํด๋ฆญ, ๊ตฌ๋งค, ์๋น ๋ฑ
๊ธฐ๋ณธ ์์ด๋์ด
ํ์ด๋ธ๋ฆฌ๋ ๋ฐฉ์ ์ถ์ฒ
ํ์ ํํฐ๋ง, ์ฌ์ฉ์ ํ๋ ๊ธฐ๋ฐ, ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ ๊ธฐ๋ฐ
์ฌ์ฉ์๋ณ๋ก ๋ฑ๋ก ํ๋ฅ ์ ๊ธฐ์ค์ผ๋ก 2์ฒ๊ฐ์ ํ ๊ฐ์ ๋ชฉ๋ก ์์ฑ
๋ฐฐ์น๋ก ์์ํ๋ค๊ฐ ์ค์๊ฐ ๊ณ์ฐ์ผ๋ก ๋ณ๊ฒฝ
ํํ์ด์ง์์์ ์ถ์ฒ์ ์กฐ๊ธ ๋ ๋ณต์ก
์ ๋ ํ๋ณด ์์ฑ
์ ๋ ํ๋ณด ๋ญํน
ํน์ ๊ฐ์ ์ธ๋ถํ์ด์ง์์ ์ถ์ฒ์ ์์ดํ ์ค์ฌ
Student also bought, ์์ดํ ๊ธฐ๋ฐ ํ์ ํํฐ๋ง
Frequently bought together, ๋ณ๋์ co-occurrence ํ๋ ฌ ๊ณ์ฐ
๊ฐ ์ ๋์์์ ๊ฐ์ ๋ญํน์ ๊ฐ์ธ๋ณ ๋ฑ๋ก ํ๋ฅ ๋ก ๊ฒฐ์
์ธ๊ธฐ๋ ๊ธฐ๋ฐ ์ถ์ฒ ์ ๋ ๊ฐ๋ฐ
Cold Start ์ด์๊ฐ ์กด์ฌํ์ง ์์
์ธ๊ธฐ๋์ ๊ธฐ์ค
ํ์ , ๋งค์ถ, ์ต๋ค ํ๋งค
์ฌ์ฉ์ ์ ๋ณด์ ๋ฐ๋ผ ํ์ฅ ๊ฐ๋ฅ
ํน์ ์ง์ญ ์ธ๊ธฐ ์์ดํ ์ถ์ฒ
๊ฐ์ธํ ๋์ด์์ง๋ ์์
์์ดํ ์ ๋ถ๋ฅ ์ฒด๊ณ ์ ๋ณด๊ฐ ์กด์ฌํ๋ฉด ์ฝ๊ฒ ํ์ฅ ๊ฐ๋ฅ
ํน์ ์นดํ ๊ณ ๋ฆฌ์์์ ์ธ๊ธฐ ์์ดํ ์ถ์ฒ
๋ถ๋ฅ์ฒด๊ณ๋ฅผ ๊ฐ์ง๋ฉด ๊ต์ฅํ ์ ๋ฆฌ
์ธ๊ธฐ๋๋ฅผ ๋ค๋ฅธ ๊ธฐ์ค์ผ๋ก ๋ฐ๊ฟ ๋ค์ํ ์ถ์ฒ ์ ๋ ์์ฑ ๊ฐ๋ฅ
top courses, new courses
๊ธฐํ Cold Start ์ด์๊ฐ ์๋ ์ถ์ฒ ์ ๋
ํ์ฌ ์ฌ์ฉ์๋ค์ด ๊ตฌ๋งคํ ์์ดํ
ํ์ฌ ์ฌ์ฉ์๋ค์ด ๋ณด๊ณ ์๋ ์์ดํ
Recommendation system : ์ ์ฌ๋ ์ธก์
์ปจํ ์ธ ๊ธฐ๋ฐ ์ธก์
ํ์ ๋ฑ์ด ์๋ ์์ดํ ์์ฒด๋ก ํ๋จ
EX
์ํ : ๋ฐฐ์ฐ, ์ ๋ชฉ, ์ฅ๋ฅด ๋ฑ
์ท : ๋ชจ์, ์ฌ์ง ๋ฑ
์ฅ์
ํ์ ๋ฑ์ด ์์ด๋ ์ถ์ฒํ ์ ์์
๋จ์
์ ์ฌํ ์ํ๊ฐ ์๋๋ผ ์๋ฆฌ์ฆ ์ํ๋ง์ ์ถ์ฒํ ์ ์์
์ค์ ๋ก ์์ดํ ์ ์๋นํ ๋ค ๋ถ์ ์ ์ธ ํ๊ฐ๋ฅผ ๋ฐ์ ์ ์์
๋ค์ํ ์ ์ฌ๋ ์ธก์ ์๊ณ ๋ฆฌ์ฆ
๋ฒกํฐ๋ค ๊ฐ์ ์ ์ฌ๋๋ฅผ ํ๋จํ๋ ๋ฐฉ๋ฒ
๋ ๋ฒกํฐ๊ฐ์ ๊ฑฐ๋ฆฌ๋ณด๋ค๋ ๋ฐฉํฅ์ ๋ณด๊ณ ์ ์ฌ๋๋ฅผ ํ๋จํ๋ค
์ฝ์ฌ์ธ ์ ์ฌ๋ ์ฌ์ฉ

๋ํ์ ์ธ ์ ์ฌ๋๋ ์ฝ์ฌ์ธ ์ ์ฌ๋์ ํผ์ด์จ ์ ์ฌ๋ ์ด๋ค
ํผ์ด์จ ์ ์ฌ๋๋ ์ฝ์ฌ์ธ ์ ์ฌ๋์ ๊ฐ์ ๋ฒ์
ํ์ ์ฒ๋ผ ๋ฐฉํฅ ๋ฟ๋ง ์๋๋ผ ๋ฒกํฐ ํฌ๊ธฐ์ ์ ๊ทํ๊ฐ ์ค์ํ๋ฉด ํผ์ด์จ ์ ์ฌ๋๋ฅผ ์ฌ์ฉ
ํผ์ด์จ ์ ์ฌ๋
๋จผ์ ๋ฒกํฐ A์ B์ ๊ฐ์ ๋ณด์
EX) A = { 3, 4, 5 }์ ํ๊ท ๊ฐ 4๋ฅผ ๊ตฌํ ๋ค ๊ฐ ์์์์ ๋นผ์ A' = { -1, 0 , 1}์ ๊ตฌํ๋ค
์ด ํ์ ๊ณ์ฐ์ ์ฝ์ฌ์ธ ์ ์ฌ๋์ ๋์ผ
์ฅ์
๋ชจ๋ ๋ฒกํฐ๊ฐ ์์ ์ ์ค์ฌ์ผ๋ก ์ด๋๋๊ณ ๋ฒกํฐ๊ฐ์ ๋น๊ต๊ฐ ๋ ์ฌ์์ง
ํ์ ์ด๋ผ๋ ๊ฒ์ ์ ๊ทํ ๋์ด์๋ ์งํ์ง๋ง ์ด ํ์ ์ ๋งค๊ธฐ๋ ์ฌ์ฉ์์ ์ฑ๊ฒฉ์ ์ ๊ทํ๋์ด ์์ง ์๋๋ฐ(๊น๋ค๋ก์ด ์ฌ์ฉ์์ ๋์ถฉ์ธ ์ฌ์ฉ์) ์ด๊น์ง ์ ๊ทํ ์ํค๋ ๋ฐฉ๋ฒ
ํ ์คํธ๋ฅผ ํ๋ ฌ(๋ฒกํฐ)๋ก ํํํ๋ ๋ฐฉ๋ฒ
์ํซ ์ธ์ฝ๋ฉ - Bag of Words(์นด์ดํธ)
stopword(the, is, in, we, can, see) ์ ์ธ
์ด ํ ๋จ์ด์ ๊ณ์ฐ => ๋จ์ด๋ณ๋ก ์ฐจ์์ ๋ฐฐ์
text = [
'The sky is blue'
'The sun is bright'
'The sun in the sky is bright'
'We can see the shining sun, the bright sun'

์ํซ ์ธ์ฝ๋ฉ - Bag of Words(TF-IDF)
์์ ์นด์ดํธ ๋ฐฉ์์ ์์ฃผ ๋์ค๋ ๋จ์ด๊ฐ ๋์ ๊ฐ์ค์น๋ฅผ ๊ฐ๊ฒ ๋จ
๊ธฐ๋ณธ ์์ด๋์ด
ํ ๋ฌธ์์์ ์ค์ํ ๋จ์ด๋ฅผ ์นด์ดํธํ๋๊ฒ์ด ์๋๋ผ ๋ฌธ์ ์ ์ฒด๋ฅผ ๋ณด๊ณ ํ๋จํ์
์ด๋ค ๋จ์ด๊ฐ ํ ๋ฌธ์์์ ์์ฃผ ๋์ค๋ฉด ์ค์ํ์ง๋ง ์ด ๋จ์ด๊ฐ ๋ค๋ฅธ ๋ฌธ์๋ค์์๋ ์์ฃผ ๋์ค์ง ์๋๋ค๋ฉด ๋ ์ค์ํ ๋จ์ด์ด๋ค.
์ ์ TF-IDF = TF(t, d) * IDF(t)
TF(t, d) : ๋จ์ด t๊ฐ ๋ฌธ์ d์์ ๋ช๋ฒ ๋์๋
DF(t) : ๋จ์ด t๊ฐ ์ ์ฒด ๋ฌธ์๊ตฐ์์ ๋ช๋ฒ ๋์๋
IDF(t) : DF(t)์ ์ญ์
๋ฌธ์ ์
์ ํํ๊ฒ ๋์ผํ ๋จ์ด๊ฐ ๋์์ผ ์ ์ฌ๋ ๊ณ์ฐ์ด ์ด๋ค์ง
๋์์ด ์ฒ๋ฆฌ๊ฐ ์๋จ
๋จ์ด์ ์๊ฐ ๋์ด๋๊ณ ์์ดํ ์ ์๊ฐ ๋์ด๋๋ฉด ๊ณ์ฐ์ด ์ค๋๊ฑธ๋ฆผ
๊ฒฐ๊ตญ ์๋ ์๋ฒ ๋ฉ์ ์ฌ์ฉํ๋ ๊ฒ์ด ๋ ์ข์
์๋๋ฉด LSA(Latent Semantic Analysis)๋ฅผ ์ฌ์ฉํด ์ฐจ์์ ์ถ์ํด์ผ ํจ
CountVectorizer
์์ Bag of Words ์นด์ดํ ๋ฐฉ์์ ๊ตฌํํ ๋ชจ๋
๋ฒกํฐ๋ก ํํ์ด ๋๋ฉด ๋ฌธ์๋ค๊ฐ์ ์ ์ฌ๋ ์ธก์ ์ด ๊ฐ๋ฅ
[a-z] ์์ผ๋ก sorting
TfIdVectorizer
์์ Bag of Words TF-IDF ๋ฐฉ์์ ๊ตฌํํ ๋ชจ๋
์ดํ COSINE_SIMILARITY๋ฅผ ์ด์ฉํด ๋ฌธ์๊ฐ ์ ์ฌ๋๋ฅผ ์ธก์
Last updated
Was this helpful?