18 Mon

TIL

[AI ์Šค์ฟจ 1๊ธฐ] 7์ฃผ์ฐจ DAY 1

Deep Learning: ์‹ ๊ฒฝ๋ง์˜ ๊ธฐ์ดˆ - ์ธ๊ณต์ง€๋Šฅ๊ณผ ๊ธฐ๊ณ„ํ•™์Šต ์†Œ๊ฐœ

์ธ๊ณต์ง€๋Šฅ

  • ์ธ๊ฐ„์˜ ํ•™์Šต๋Šฅ๋ ฅ๊ณผ ์ถ”๋ก ๋Šฅ๋ ฅ, ์ง€๊ฐ๋Šฅ๋ ฅ, ์ž์—ฐ์–ธ์–ด์˜ ์ดํ•ด๋Šฅ๋ ฅ ๋“ฑ์„ ์ปดํ“จํ„ฐ ํ”„๋กœ๊ทธ๋žจ์œผ๋กœ ์‹คํ˜„ํ•œ ๊ธฐ์ˆ 

  • ์šฐ๋ฆฌ๊ฐ€ ์ง‘์ค‘ํ•  ๊ฒƒ์€ ์ธ๊ฐ„์˜ "ํ•™์Šต ๋Šฅ๋ ฅ"

์ผ์ƒ ์† ์ธ๊ณต์ง€๋Šฅ

  • ์Œ์„ฑ์ธ์‹ - Siri

  • ์ถ”์ฒœ ์‹œ์Šคํ…œ - eBay, Netflix

  • ์ž์œจ์ฃผํ–‰ - Waymo

  • ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ์ธ์‹ - Face ID

  • ๋กœ๋ด‡ - HUBO

  • ๋ฒˆ์—ญ - papago

Deep Learning: ์‹ ๊ฒฝ๋ง์˜ ๊ธฐ์ดˆ - ๊ธฐ๊ณ„ํ•™์Šต I

์‚ฌ๋žŒ(๋™๋ฌผ)๊ณผ ๊ธฐ๊ณ„์˜ ํ•™์Šต

  • ํŒŒ๋ธ”๋กœํ”„์˜ ๊ฐœ : ๋ฐ˜๋ณต์ ์ธ ์‹ ํ˜ธ๋ฅผ ์ œ๊ณต

  • ๊ธฐ๊ณ„๋„ ์‚ฌ๋žŒ๊ณผ ๋™์ผํ•˜์ง€๋Š” ์•Š์ง€๋งŒ ๋น„์Šทํ•˜๊ฒŒ ๊ฐ€๋Šฅ

ํ•™์Šต

  • ๊ฒฝํ—˜์˜ ๊ฒฐ๊ณผ๋กœ ๋‚˜ํƒ€๋‚˜๋Š”, ์ง€์†์ ์ธ ํ–‰๋™์˜ ๋ณ€ํ™”๋‚˜ ๊ทธ ์ž ์žฌ๋ ฅ์˜ ๋ณ€ํ™” ๋˜๋Š” ์ง€์‹์„ ์Šต๋“ํ•˜๋Š” ๊ณผ์ •

๊ธฐ๊ณ„ ํ•™์Šต

  • ์–ด๋–ค ํ”„๋กœ๊ทธ๋žจ์ด T๋ผ๋Š” ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•œ๋‹ค. ์ด ํ”„๋กœ๊ทธ๋žจ์˜ ์„ฑ๋Šฅ์„ P๋ผ๋Š” ์ฒ™๋„๋กœ ํ‰๊ฐ€ํ–ˆ์„ ๋•Œ ๊ฒฝํ—˜ E๋ฅผ ํ†ตํ•ด ์„ฑ๋Šฅ์ด ๊ฐœ์„ ๋œ๋‹ค๋ฉด ์ด ํ”„๋กœ๊ทธ๋žจ์€ ํ•™์Šต์„ ํ•œ๋‹ค๊ณ  ๋งํ•  ์ˆ˜ ์žˆ๋‹ค.

  • ๊ฒฝํ—˜ E๋ฅผ ํ†ตํ•ด ์ฃผ์–ด์ง„ ์ž‘์—… T์— ๋Œ€ํ•œ ์„ฑ๋Šฅ P์˜ ํ–ฅ์ƒ

  • Experience, Task, Performance

  • ์ดˆ์ฐฝ๊ธฐ ์ง€์‹๊ธฐ๋ฐ˜

    • ํ•˜๋‚˜์˜ ๊ฐœ๋…์— ๋Œ€ํ•œ ์—ฌ๋Ÿฌ ํŠน์ง•๋“ค์„ ํ•˜๋‚˜๋„ ๋น ์ง์—†์ด ๋‚˜์—ดํ•  ์ˆ˜๋Š” ์—†๋‹ค

    • ๋งค๋ฒˆ ์ƒˆ๋กœ์šด ๋ชจ์–‘๊ณผ ๋‹ค์–‘ํ•œ ํŠน์ง•๋“ค์ด ์กด์žฌ

      • EX) ๊ฐœ๋Š” ํ„ธ์ด ์žˆ๊ณ  ํ˜€๊ฐ€ ๊ธธ๊ณ  ๋ชธ์ง‘์ด ๊ฐ€๋กœ๋กœ ๊ธธ๊ณ  ...

  • ๋ฐ์ดํ„ฐ ์ค‘์‹ฌ ์ ‘๊ทผ๋ฐฉ์‹์˜ ์ „ํ™˜

๊ด€์ฐฐ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ์–ด๋–ป๊ฒŒ ์„ค๋ช…ํ•  ๊ฒƒ์ธ๊ฐ€?

  • ๋ฐ์ดํ„ฐ์˜ ํŒจํ„ด์— ๋Œ€ํ•œ ๊ฐ€์„ค

    • X = {1, 2, 3, 4}, Y = {3, 6, 9, 12}

    • suppose Y = 3X

    • Y = WX + b

  • ๊ฐ€์„ค์˜ ๋ชจ๋ธ์€ 1์ฐจ์›, 2์ฐจ์› ์ผ์ˆ˜๋„ ๊ณ ์ฐจ์›์ด๋‚˜ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์ผ ์ˆ˜๋„ ์žˆ๋‹ค

๊ธฐ๊ณ„ํ•™์Šต์˜ ํ›ˆ๋ จ

  • ์ž„์˜์˜ ๋งค๊ฐœ๋ณ€์ˆ˜ ๊ฐ’์—์„œ ์‹œ์ž‘ํ•ด์„œ ๊ฐœ์„ ํ•˜์—ฌ ์ •๋Ÿ‰์ ์ธ ์ตœ์  ์„ฑ๋Šฅ์— ๋„๋‹ฌ

  • ์ฃผ์–ด์ง„ ๋ฌธ์ œ์— ๋Œ€ํ•ด ์˜ˆ์ธก์„ ๊ฐ€์žฅ ์ •ํ™•ํ•˜๊ฒŒ ํ•  ์ˆ˜ ์žˆ๋Š” ์ตœ์ ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ์ฐพ๋Š” ์ž‘์—…

  • ํ›ˆ๋ จ์„ ๋งˆ์น˜๋ฉด ์ถ”๋ก ์„ ์ˆ˜ํ–‰ => ์ƒˆ๋กœ์šด ํŠน์ง•์— ๋Œ€์‘๋˜๋Š” ๋ชฉํ‘œ์น˜๋ฅผ ์˜ˆ์ธก

  • ํ…Œ์ŠคํŠธ ์ง‘ํ•ฉ์— ๋Œ€ํ•œ ๋†’์€ ์„ฑ๋Šฅ์„ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์ด๋ผ๊ณ  ํ•œ๋‹ค.

๊ธฐ๊ณ„ํ•™์Šต์˜ ํ•„์ˆ˜์š”์†Œ

  • ๋ฐ์ดํ„ฐ

  • ๋ฐ์ดํ„ฐ ๊ทœ์น™ ์กด์žฌ

  • ์ˆ˜ํ•™์ ์œผ๋กœ ์„ค๋ช… ๋ถˆ๊ฐ€๋Šฅ

์‚ฌ๋žŒ์˜ ํ•™์Šต๊ณผ ๊ธฐ๊ณ„ ํ•™์Šต ๋น„๊ต

์ฐจ์›์˜ ์ €์ฃผ

  • ๋ฐ์ดํ„ฐ์˜ ์ฐจ์›์ด ๋†’์„ ์ˆ˜๋ก

    • ๋” ๋งŽ์€ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•„์š”ํ•˜๋‹ค

    • ๋ฐ์ดํ„ฐ๊ฐ„์˜ ๊ทœ์น™์„ ์ฐพ๊ธฐ ํž˜๋“ค๋‹ค

Deep Learning: ์‹ ๊ฒฝ๋ง์˜ ๊ธฐ์ดˆ - ๊ธฐ๊ณ„ํ•™์Šต II

๊ณผํ•™ ๊ธฐ์ˆ ์˜ ์ •๋ฆฝ ๊ณผ์ •

  1. ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘

  2. ๋ชจ๋ธ ์ •๋ฆฌ(๊ฐ€์„ค)

  3. ์˜ˆ์ธก

  4. ๋ฐ˜๋ณต

๊ธฐ๊ณ„ํ•™์Šต

  • ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘

  • ๋ฐ์ดํ„ฐ๋ฅผ ์ •๋ฆฌ

  • ๋ชจ๋ธ ์ƒ์„ฑ

๋ฐ์ดํ„ฐ์˜ ์–‘๊ณผ ์งˆ

  • ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์ถฉ๋ถ„ํ•œ ์–‘๋งŒํผ ์ˆ˜์ง‘ํ•˜๋ฉด ๊ณผ์—…์˜ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋œ๋‹ค.

์ ์€ ์–‘์˜ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค๋กœ ๋†’์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•

  • ๋ฐ์ดํ„ฐ ํฌ์†Œ ํŠน์„ฑ ๊ฐ€์ • - ์ด์ƒํ•œ ๋ฐ์ดํ„ฐ๋Š” ์กด์žฌํ•˜์ง€ ์•Š์Œ

  • ๋งค๋‹ˆํด๋“œ(๋งŽ์ด ๋ผ๋‹ค) ๊ฐ€์ • => ๊ณ ์ฐจ์›์˜ ๋ฐ์ดํ„ฐ๋Š” ๋‚ฎ์€ ์ฐจ์›์˜ ๋ฐ์ดํ„ฐ๋“ค์ด ์œ ์‚ฌ์„ฑ์„ ์ง€๋‹˜

๋ฐ์ดํ„ฐ ๊ฐ€์‹œํ™”

  • 4์ฐจ์› ์ด์ƒ์˜ ์ดˆ๊ณต๊ฐ„์€ ํ•œ๋ฒˆ์— ๊ฐ€์‹œํ™” ๋ถˆ๊ฐ€๋Šฅ

์„ ํ˜• ํšŒ๊ท€ ๋ฌธ์ œ

  • ์ง์„  ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋ฏ€๋กœ ๋‘ ๊ฐœ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜ w์™€ b ํ•„์š”

  • ํ˜„์‹ค์ ์œผ๋กœ๋Š” ์„ ํ˜• ๋ชจ๋ธ์„ ํ•˜๊ธฐ ์–ด๋ ค์›€. => ์žก์Œ์ด ์„ž์ด๊ธฐ ๋•Œ๋ฌธ => ๋น„์„ ํ˜• ๋ชจ๋ธ ํ•„์š”

  • ์ œ๊ณฑ ์˜ค์ฐจ ๋ฐฉ๋ฒ•์œผ๋กœ ์†์‹คํ•จ์ˆ˜๋ฅผ ํ†ตํ•ด ๊ฐœ์„  ๊ฐ€๋Šฅ

Deep Learning: ์‹ ๊ฒฝ๋ง์˜ ๊ธฐ์ดˆ - ๊ธฐ๊ณ„ํ•™์Šต III

Target distribution (Target function)

  • ๋ฐ์ดํ„ฐ๋ฅผ ๊ตฌ๋ถ„์ง“๋Š” ๊ตฌ๋ถ„์„ 

  • ์‹ค์ œ๋กœ ๋ณด์ด์ง€๋Š” ์•Š์œผ๋ฉฐ, ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด์„œ ์œ ์ถ” ๊ฐ€๋Šฅ

  • input distribution๊ณผ target distribution์„ ํ†ตํ•ด training exapmles๋ฅผ ์ƒ์„ฑ

  • ๋ชฉ์ ํ•จ์ˆ˜ error measure๋ฅผ ํ†ตํ•ด learning algorithm์„ ์ˆ˜์ •ํ•œ๋‹ค.

  • ์ด ๋•Œ ๊ฐ€์„ค h๋ฅผ learning algorithm์„ ํ†ตํ•˜์—ฌ ์ตœ์ข… ๊ฐ€์„ค g๋ฅผ ๋„์ถœํ•œ๋‹ค.

๊ณผ์†Œ์ ํ•ฉ๊ณผ ๊ณผ์ž‰์ ํ•ฉ

  • ๊ณผ์†Œ์ ํ•ฉ

    • underfitting

    • ๋ชจ๋ธ์˜ ์šฉ๋Ÿ‰(์ž์œ ๋„ - ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜)์ด ์ž‘์•„ ์˜ค์ฐจ๊ฐ€ ํด ์ˆ˜ ๋ฐ–์— ์—†๋‹ค

    • ๊ณ ์ฐจ์›์˜ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•œ๋‹ค.

  • ๊ณผ์ž‰์ ํ•ฉ

    • overfitting

    • ํ›ˆ๋ จ์ง‘ํ•ฉ์— ๋Œ€ํ•ด์„œ๋งŒ ์™„๋ฒฝํ•˜๊ฒŒ ๊ทผ์‚ฌํ™”ํ•˜๊ณ  ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๋ฅผ ์˜ˆ์ธกํ•  ๋•Œ ํฐ ๋ฌธ์ œ ๋ฐœ์ƒ

    • ๋ชจ๋ธ์˜ ์šฉ๋Ÿ‰์ด ํฌ๊ธฐ ๋•Œ๋ฌธ์— ํ•™์Šต ๊ณผ์ •์—์„œ ์žก์Œ๊นŒ์ง€ ์ˆ˜์šฉํ–ˆ๊ธฐ ๋•Œ๋ฌธ

    • ์ฃผ๋กœ ๊ณ ์ฐจ์›์˜ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์˜ค๋ฒ„ํ”ผํŒ… ๋ฌธ์ œ๊ฐ€ ๊ธฐ๊ณ„ํ•™์Šต์—์„œ ๋งŽ์ด ๋ฐœ์ƒ

    • ์ด๋Ÿฌํ•œ ๊ณผ์ž‰์ ํ•ฉ์„ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ์ฐจ์›์„ ๋‚ฎ์ถ”๋Š” ์ •๊ทœํ™”๋ฅผ ์‚ฌ์šฉ

ํ›ˆ๋ จ์ง‘ํ•ฉ์„ ์—ฌ๋Ÿฌ๋ฒˆ ์ˆ˜์ง‘ํ•˜์—ฌ 1์ฐจ~12์ฐจ์— ๋ฐ˜๋ณต ์ ์šฉํ•˜๋Š” ์‹คํ—˜

  • 2์ฐจ

    • ๋งค๋ฒˆ ํฐ ์˜ค์ฐจ ๋ฐœ์ƒ => ํŽธํ–ฅ์ด ํผ

    • ๋ชจ๋ธ๋งˆ๋‹ค ๋ชจ์–‘์ด ๋น„์Šทํ•จ => ๋‚ฎ์€ ๋ณ€๋™ => ๋ถ„์‚ฐ์ด ์ž‘์Œ

  • 12์ฐจ

    • ๋งค๋ฒˆ ์ž‘์€ ์˜ค์ฐจ ๋ฐœ์ƒ => ํŽธํ–ฅ์ด ์ž‘์Œ

    • ๋ชจ๋ธ๋งˆ๋‹ค ๋ชจ์–‘์ด ์ƒ์ดํ•จ => ๋†’์€ ๋ณ€๋™ => ๋ถ„์‚ฐ์ด ํผ

  • ๊ธฐ๊ณ„ํ•™์Šต์˜ ๋ชฉํ‘œ

    • ๋‚ฎ์€ ํŽธํ–ฅ๊ณผ ๋‚ฎ์€ ๋ถ„์‚ฐ์„ ๊ฐ€์ง„ ์˜ˆ์ธก ๋ชจ๋ธ์„ ๊ฐ€์ง€๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ

    • ๊ทธ๋Ÿฌ๋‚˜ ๋ชจ๋ธ์˜ ํŽธํ–ฅ๊ณผ ๋ถ„์‚ฐ์€ ์ƒ์ถฉ ๊ด€๊ณ„์ด๊ธฐ ๋•Œ๋ฌธ์— ํŽธํ–ฅ์„ ์ตœ์†Œ๋กœ ์œ ์ง€ํ•˜๋ฉฐ ๋ถ„์‚ฐ๋„ ์ตœ๋Œ€๋กœ ๋‚ฎ์ถ”๋Š” ์ „๋žต์ด ํ•„์š”ํ•˜๋‹ค

ํŽธํ–ฅ๊ณผ ๋ถ„์‚ฐ์˜ ๊ด€๊ณ„

  • ์šฉ๋Ÿ‰ ์ฆ๊ฐ€ => ํŽธํ–ฅ ๊ฐ์†Œ, ๋ถ„์‚ฐ ์ฆ๊ฐ€ ๊ฒฝํ–ฅ

  • ์ผ๋ฐ˜ํ™” ์˜ค์ฐจ ์„ฑ๋Šฅ(= ํŽธํ–ฅ + ๋ถ„์‚ฐ)์€ Uํ˜•์˜ ๊ณก์„ ์„ ๊ฐ€์ง

๊ฒ€์ฆ์ง‘ํ•ฉ์„ ์ด์šฉํ•œ ๋ชจ๋ธ ์„ ํƒ

  • ๊ฒ€์ฆ์ง‘ํ•ฉ(Validation set)์€ ๋ฐ์ดํ„ฐ์˜ ์–‘์ด ๋งŽ์„ ๋•Œ ์‚ฌ์šฉํ•œ๋‹ค.

  • Original set = Training set + Testing set ์˜ ๊ธฐ๋ณธ ๋น„์œจ์„ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋ฐ”๊พผ๋‹ค.

    • Original set = Training set + Validation set + Testing set

  • Testing set์„ ์ ์šฉํ•˜๊ธฐ ์ „์— ๊ฒ€์ฆ์ง‘ํ•ฉ์„ ์ด์šฉํ•ด ๋ฏธ๋ฆฌ ์„ฑ๋Šฅ์„ ์ธก์ •ํ•  ์ˆ˜ ์žˆ๋‹ค.

๊ต์ฐจ์ ์ฆ

  • ๊ต์ฐจ๊ฒ€์ฆ(Cross validation)์€ ๋ฐ์ดํ„ฐ์˜ ์–‘์ด ์ ์„ ๋•Œ ์‚ฌ์šฉํ•œ๋‹ค.

  • ๋ฐ์ดํ„ฐ๋ฅผ ์—ฌ๋Ÿฌ ๋ถ€๋ถ„์œผ๋กœ ๋‚˜๋ˆˆ ๋’ค ๊ฐ ๋ถ€๋ถ„์„ ๋Œ์•„๊ฐ€๋ฉด์„œ ๊ฒ€์ฆ์ง‘ํ•ฉ์œผ๋กœ ์‚ฌ์šฉ

๋ถ€ํŠธ์ŠคํŠธ๋žฉ

  • ์ž„์˜์˜ ๋ณต์›์ถ”์ถœ ์ƒ˜ํ”Œ๋ง์„ ๋ฐ˜๋ณตํ•œ๋‹ค

  • ๋ฐ์ดํ„ฐ ๋ถ„ํฌ๊ฐ€ ๋ถˆ๊ท ํ˜•์ผ ๋•Œ ์ ์šฉํ•œ๋‹ค

    • class1 : 10000๊ฐœ, class2 : 100๊ฐœ

    • class1์— ๋Œ€ํ•ด์„œ ์น˜์šฐ์นœ ํ•™์Šต์„ ํ•  ๊ฐ€๋Šฅ์„ฑ์ด ํฌ๋‹ค

    • class1 : 100๊ฐœ, class2 : 50๊ฐœ๋ฅผ ๋ฝ‘์•„ ํ•™์Šตํ•˜๊ฑฐ๋‚˜

    • class1 : 10000๊ฐœ, class2 : 10000(๋ณต์‚ฌ ๋˜๋Š” ๋ณ€ํ˜•์œผ๋กœ ์ƒ์„ฑ)์„ ๋ฝ‘์•„ ํ•™์Šตํ•œ๋‹ค.

    • ๋ฐ์ดํ„ฐ์˜ ์–‘์ด ์ ์œผ๋ฉด ์ข‹์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์— ์ฃผ๋กœ ์ˆ˜๋ฅผ ๋Š˜๋ฆฌ๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ ์ ์šฉํ•œ๋‹ค

๋ชจ๋ธ ์„ ํƒ์˜ ํ•œ๊ณ„์™€ ํ˜„์‹ค์ ์ธ ํ•ด๊ฒฐ์ฑ…

  • ๋ฐ์ดํ„ฐ์˜ ์šฉ๋Ÿ‰๋ณด๋‹ค ํฐ ๋ชจ๋ธ์„ ์„ ํƒํ•œ ๋’ค, ์ ์  ์ž‘๊ฒŒ ๋งŒ๋“ ๋‹ค. => ์—ฌ๋Ÿฌ ๊ทœ์ œ ๊ธฐ๋ฒ•์„ ์ ์šฉ

๊ทœ์ œ

  • ๋ฐ์ดํ„ฐ ํ™•๋Œ€

    • ๋ฐ์ดํ„ฐ๋ฅผ ๋” ๋งŽ์ด ์ˆ˜์ง‘ํ•˜๋ฉด ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์ด ํ–ฅ์ƒ๋จ

      • ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์€ ๋งŽ์€ ๋น„์šฉ์ด ๋“ฆ => ์‹ค์ธก์ž๋ฃŒ๋ฅผ ์‚ฌ๋žŒ์ด ์ผ์ผ์ด ํ‘œ์‹ํ•ด์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ(labeling)

    • ์ธ์œ„์ ์œผ๋กœ ๋ฐ์ดํ„ฐ ํ™•๋Œ€ => ์žฌํ™œ์šฉ

      • ํ›ˆ๋ จ์ง‘ํ•ฉ์— ์žˆ๋Š” ์ƒ˜ํ”Œ์„ ๋ณ€ํ˜•ํ•œ๋‹ค

      • ๋ณ€ํ˜• : ์•ฝ๊ฐ„์˜ ํšŒ์ „ ๋˜๋Š” ์™œ๊ณก(๊ณ ์œ  ํŠน์„ฑ์€ ๋ณ€ํ•˜์ง€ ์•Š๋Š” ์ •๋„๋กœ)

  • ๊ฐ€์ค‘์น˜ ๊ฐ์‡ 

    • ๊ฐ€์ค‘์น˜๋ฅผ ์ž‘๊ฒŒ ์กฐ์ ˆํ•œ๋‹ค

    • ๊ธฐ์กด ํ•จ์ˆ˜๋Š” ํ›ˆ๋ จ ์ง‘ํ•ฉ์ด ๋ณ€ํ™”ํ•˜๋ฉด ๋ถ„์‚ฐ์ด ์ปค์ง„๋‹ค.

    • ๊ฐ€์ค‘์น˜๋ฅผ ์ž‘๊ฒŒ ์กฐ์ ˆํ•œ ๊ฐœ์„ ๋œ ๋ชฉ์ ํ•จ์ˆ˜๋Š” ๋ถ„์‚ฐ์ด ์ž‘๋‹ค.

    • ์›๋ž˜ ๊ฐ€์ง„ ๋ชจ๋ธ์˜ ์šฉ๋Ÿ‰์ด ๋‹ค ๋ฐœํ˜„๋˜์ง€ ๋ชปํ•˜๊ฒŒ ํ•˜๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ

์ง€๋„ ๋ฐฉ์‹์— ๋”ฐ๋ฅธ ์œ ํ˜•

  • ์ง€๋„ ํ•™์Šต

    • ํŠน์ง• ๋ฒกํ„ฐ์— ๋Œ€ํ•œ ๋ผ๋ฒจ๋ง์ด ์ฃผ์–ด์ง„ ์ƒํ™ฉ

    • ํšŒ๊ท€์™€ ๋ถ„๋ฅ˜๋ฌธ์ œ๋กœ ๊ตฌ๋ถ„

  • ๋น„์ง€๋„ ํ•™์Šต

    • ํŠน์ง• ๋ฒกํ„ฐ์— ๋Œ€ํ•œ ๋ผ๋ฒจ๋ง์ด ์ฃผ์–ด์ง€์ง€ ์•Š์Œ

    • ๊ตฐ์ง‘ํ™” ๊ณผ์—… (๊ณ ๊ฐ ์„ฑํ–ฅ์— ๋”ฐ๋ฅธ ๋งž์ถค ํ™๋ณด ๋“ฑ)

    • ๋ฐ€๋„ ์ถ”์ •, ํŠน์ง• ๊ณต๊ฐ„ ๋ณ€ํ™˜ ๊ณผ์—…

  • ๊ฐ•ํ™” ํ•™์Šต

    • ๋ผ๋ฒจ๋ง์ด ์ƒํ™ฉ์— ๋”ฐ๋ผ์„œ ๋‹ค๋ฅธ ์ƒ๋Œ€์  ๋ชฉํ‘œ์น˜๋กœ ์ฃผ์–ด์ง„๋‹ค. ์ด๋ฅผ ๋ณด์ƒ์ด๋ผ๊ณ  ํ•œ๋‹ค

    • ๋ฐ”๋‘‘๊ฐ™์€ ๊ฒŒ์ž„์„ ํ•  ๋•Œ ์ ์šฉ

  • ์ค€์ง€๋„ ํ•™์Šต

    • ์ผ๋ถ€ ํŠน์ง• ๋ฒกํ„ฐ๋Š” ๋ผ๋ฒจ์„ ๊ฐ€์ง€์ง€๋งŒ ๋‚˜๋จธ์ง€ ๋ฒกํ„ฐ๋Š” ๋ผ๋ฒจ์ด ์—†๋Š” ์ƒํ™ฉ

    • ๋Œ€๋ถ€๋ถ„์˜ ๋ฐ์ดํ„ฐ๊ฐ€ X์˜ ์ˆ˜์ง‘์€ ์‰ฝ์ง€๋งŒ Y๋Š” ์ˆ˜์ž‘์—…์ด ํ•„์š”ํ•˜์—ฌ ์ตœ๊ทผ ์ค‘์š”์„ฑ ๋ถ€๊ฐ

๋‹ค์–‘ํ•œ ๊ธฐ์ค€์— ๋”ฐ๋ฅธ ์œ ํ˜•

  • ์˜คํ”„๋ผ์ธ ํ•™์Šต๊ณผ ์˜จ๋ผ์ธ ํ•™์Šต

    • ๋ณดํ†ต์€ ์˜คํ”„๋ผ์ธ ํ•™์Šต์„ ๋‹ค๋ฃธ

    • ์˜จ๋ผ์ธ ํ•™์Šต์€ IoT ๋“ฑ์—์„œ ์ถ”๊ฐ€๋กœ ๋ฐœ์ƒํ•˜๋Š” ๋ฐ์ดํ„ฐ ์ƒ˜ํ”Œ์„ ๊ฐ€์ง€๊ณ  ์ ์ฆ์  ํ•™์Šต ์ˆ˜ํ–‰

  • ๊ฒฐ์ •๋ก ์  ํ•™์Šต๊ณผ ํ™•๋ฅ ์  ํ•™์Šต

    • ๊ฒฐ์ •๋ก ์ ์—์„œ๋Š” ๊ฐ™์€ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์ง€๊ณ  ๋‹ค์‹œ ํ•™์Šตํ•˜๋ฉด ๊ฐ™์€ ์˜ˆ์ธก ๋ชจ๋ธ์ด ๋งŒ๋“ค์–ด์ง

    • ํ™•๋ฅ ์  ํ•™์Šต์€ ํ•™์Šต ๊ณผ์ •์—์„œ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ์‚ฌ์šฉํ•˜๋ฏ€๋กœ ๊ฐ™์€ ๋ฐ์ดํ„ฐ๋กœ ๋‹ค์‹œ ํ•™์Šตํ•ด๋„ ๋‹ค๋ฅธ ์˜ˆ์ธก ๋ชจ๋ธ์ด ๋งŒ๋“ค์–ด์ง

  • ๋ถ„๋ณ„ ๋ชจ๋ธ๊ณผ ์ƒ์„ฑ ๋ชจ๋ธ

    • ๋ถ„๋ณ„ ๋ชจ๋ธ์€ ๋ถ„๋ฅ˜ ์˜ˆ์ธก์—๋งŒ ๊ด€์‹ฌ. P(y|x)์˜ ์ถ”์ •์— ๊ด€์‹ฌ

    • ์ƒ์„ฑ๋ชจ๋ธ์€ P(x) ๋˜๋Š” P(x|y)๋ฅผ ์ถ”์ •ํ•จ

      • ๋”ฐ๋ผ์„œ ์ƒˆ๋กœ์šด ์ƒ˜ํ”Œ์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค

[Statistics 110] 6๊ฐ•- Monty Hall ๋ฌธ์ œ์™€ ์‹ฌ์Šจ์˜ ์—ญ์„ค (Monty Hall, Simpson's Paradox)

Present Part [6 / 34]

Monty Hall ๋ฌธ์ œ

์„ธ ๊ฐœ์˜ ๋ฌธ ์ค‘์— ํ•˜๋‚˜ ๋’ค์—๋Š” ์ž๋™์ฐจ๊ฐ€ ์žˆ๊ณ , ๋‚˜๋จธ์ง€ ๋‘ ๊ฐœ ๋’ค์—๋Š” ์—ผ์†Œ๊ฐ€ ์žˆ๋‹ค. Monty๊ฐ€ ๋‚ด๊ฐ€ ๊ณ ๋ฅด์ง€ ์•Š์€ ๋ฌธ ์ค‘ ํ•˜๋‚˜๋ฅผ ์—ด์–ด ์—ผ์†Œ๊ฐ€ ์žˆ๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์คฌ๋‹ค๋ฉด, ๋‚˜๋Š” ์ฒ˜์Œ ๊ณ ๋ฅธ ๋ฌธ์—์„œ ๋ฐ”๊พธ๋Š” ๊ฒƒ์ด ์œ ๋ฆฌํ•œ๊ฐ€, ๊ทธ๋ ‡์ง€ ์•Š์€๊ฐ€?

i) ์ˆ˜ํ˜•๋„๋กœ ํ’€๊ธฐ (๋ชฌํ‹ฐ๊ฐ€ 2๋ฒˆ ๋ฌธ์„ ์—ด์—ˆ๋‹ค๋Š” ๊ฐ€์ •)

ii) ์ „์ฒด ํ™•๋ฅ ์˜ ๋ฒ•์น™์œผ๋กœ ํ’€๊ธฐ

SS: ์ฒ˜์Œ ์„ ํƒ์—์„œ ๋ฐ”๊ฟ”์„œ ์ž๋™์ฐจ ์žˆ๋Š” ๋ฌธ์„ ๋งž์ถ”๋Š” ์‚ฌ๊ฑด

DjD_jโ€‹โ€‹: jj๋ฒˆ ๋ฌธ ๋’ค์— ์ž๋™์ฐจ๊ฐ€ ์žˆ๋Š” ์‚ฌ๊ฑด (jโˆˆ{1,2,3})(j \in \{1, 2, 3\} )

P(S)=P(SโˆฃD1)ร—13+P(SโˆฃD2)ร—13โ€‹โ€‹+P(SโˆฃD3)ร—13 P(S) = P(S|D_1)\times \large{\frac{1}{3}} + P(S|D_2) \times \large \frac{1}{3}โ€‹โ€‹ +P(S|D_3) \times \large \frac{1}{3}

=0+1ร—13โ€‹โ€‹+1ร—13=23 = 0 + 1\times \large \frac {1}{3}โ€‹โ€‹ + 1 \times \large \frac {1}{3} = \frac {2}{3}

๋˜ํ•œ Monty๋Š” ๋‚ด๊ฐ€ ๊ณ ๋ฅด์ง€ ์•Š์€ ๋‘ ๊ฐœ์˜ ๋ฌธ์ด ๋‘˜ ๋‹ค ์—ผ์†Œ๊ฐ€ ์žˆ๋‹ค๋ฉด ๋‘ ๋ฌธ์„ ์—ด ํ™•๋ฅ ์€ ๊ฐ™์œผ๋ฏ€๋กœ

P(SโˆฃMonty๊ฐ€2๋ฒˆ๋ฌธ์„์—ฐ๋‹ค)=23=P(S)P(Sโˆฃ Monty๊ฐ€ 2๋ฒˆ๋ฌธ์„ ์—ฐ๋‹ค) = \large \frac{2}{3} =P(S)

์œผ๋กœ, ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ๊ณผ ์กฐ๊ฑด๋ถ€๊ฐ€ ์•„๋‹Œ ํ™•๋ฅ  ๊ฐ’์ด ์ผ์น˜ํ•œ๋‹ค.

๋งŒ์•ฝ ๋ชฌํ‹ฐํ™€์˜ ๋ฌธ์ด 9999๊ฐœ๋ผ๋ฉด?

  • ๋Œ€๋ถ€๋ถ„์˜ ์ง๊ด€์€ ์„ ํƒํ•œ ๋ฌธ์„ ๋ฐ”๊พผ๋‹ค ๋ผ๋Š” ์ž…์žฅ => ์ž์‹ ์˜ ์ฒซ ์„ ํƒ์ด ํฌ๊ฒŒ ๊ฐ€๋Šฅ์„ฑ์ด ์—†๋‹ค๊ณ  ์ƒ๊ฐ

  • ๋ฌธ์ด 3๊ฐœ์ธ ๊ฒฝ์šฐ์™€ ํฌ๊ฒŒ ๋‹ค๋ฅผ๊ฒŒ ์—†๋‹ค

Simpson's Paradox(์‹ฌ์Šจ์˜ ์—ญ์„ค)

๋ถ€๋ถ„์—์„œ ์„ฑ๋ฆฝํ•˜๋Š” ๋Œ€์†Œ ๊ด€๊ณ„๋Š” ์ „์ฒด๋ฅผ ๋ณด์•˜์„ ๋•Œ ์—ญ์ „๋  ์ˆ˜๋„ ์žˆ๋‹ค.

์˜ˆ์‹œ) ์‹ฌ์Šจ ๊ฐ€์กฑ์ด ์‚ฌ๋Š” ์Šคํ”„๋งํ•„๋“œ์— Dr.Hibbert์™€ Dr.Nick, ๋‘ ๋ช…์˜ ์˜์‚ฌ๊ฐ€ ์žˆ๊ต, ๊ทธ๋“ค์€ ์‹ฌ์žฅ ์ˆ˜์ˆ ๊ณผ ๋ฐ˜์ฐฝ๊ณ  ์ œ๊ฑฐ ๋‘ ๊ฐ€์ง€ ์ˆ˜์ˆ ์„ ํ•œ๋‹ค๊ณ  ํ•˜์ž.

์˜์‚ฌ๋“ค์˜ ์ˆ˜์ˆ ์ข…๋ฅ˜๋ณ„ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์•˜์„ ๋•Œ, Dr.HIbbert๊ฐ€ ๋” ์ข‹์€ ์˜์‚ฌ์ž„์€ ๋ถ„๋ช…ํ•˜๋‹ค.

ํ•˜์ง€๋งŒ Dr.Nick์ด ๋” ๋†’์€ ์ „์ฒด ์ˆ˜์ˆ  ์„ฑ๊ณต๋ฅ ์„ ๊ทผ๊ฑฐ๋กœ ์Šค์Šค๋กœ์˜ ๊ฒฝ์Ÿ๋ ฅ์„ ์ฃผ์žฅํ•œ๋‹ค๋ฉด, ์ด ๋˜ํ•œ ํ‹€๋ฆฐ ๋ง์€ ์•„๋‹ˆ๋‹ค!

๋˜ ๋‹ค๋ฅธ ์˜ˆ

  • ์•ผ๊ตฌ์—์„œ ๋‘ ๋ช…์˜ ์„ ์ˆ˜๊ฐ€ ์žˆ๋‹ค. 1๋ฒˆ ์„ ์ˆ˜๊ฐ€ ํƒ€์œจ(์ „์ฒด ํƒ€์„์—์„œ ์•ˆํƒ€๋ฅผ ์นœ ํšŸ์ˆ˜)์ด ๋” ๋†’๊ณ  ๋‘ ๋ฒˆ์งธ ์‹œ์ฆŒ์—์„œ๋„ ํƒ€์œจ์ด ๋” ๋†’์ง€๋งŒ ์ „์ฒด์ ์œผ๋กœ ๋ดค์„ ๋•Œ 2๋ฒˆ ์„ ์ˆ˜๊ฐ€ ํƒ€์œจ์ด ๋” ๋†’๋‹ค.

(์ˆ˜์—…์—์„œ ์ œ์‹œํ•œ ์‹ฌ์Šจ ๊ฐ€์กฑ์˜ ์˜ˆ์‹œ ์™ธ์—๋„, https://en.wikipedia.org/wiki/Simpson%27s_paradox ์—์„œ ๋” ๋งŽ์€ ์‹ฌ์Šจ์˜ ์—ญ์„ค ์˜ˆ์‹œ๋ฅผ ์ฐพ์•„๋ณผ ์ˆ˜ ์žˆ๋‹ค.)

์ด๋ก ์  ์ ‘๊ทผ

A: ์ˆ˜์ˆ ์ด ์„ฑ๊ณตํ•˜๋Š” ์‚ฌ๊ฑด (<-> ์ˆ˜์ˆ  ์‹คํŒจ)

B: Dr. Nick๊ฐ€ ์ˆ˜์ˆ ์„ ์ง‘๋„ํ•˜๋Š” ์‚ฌ๊ฑด ( <-> ํžˆ๋ฒ„ํŠธ๊ฐ€ ์ง‘๋„)

C: ์‹ฌ์žฅ ์ˆ˜์ˆ ์„ ๋ฐ›๋Š” ์‚ฌ๊ฑด ( <-> ๋ฐ˜์ฐฝ๊ณ  ์ œ๊ฑฐ)

์‹ฌ์žฅ) P(AโˆฃB,C)<P(AโˆฃBC,C)P(A|B,C) < P(A|B^C,C)

๋ฐ˜์ฐฝ๊ณ ) P(AโˆฃB,CC)<P(AโˆฃBC,CC)P(A|B,C^C) < P(A|B^C,C^C)

๋กœ Dr.Hibbert๊ฐ€ ๊ฐ๊ฐ์˜ ์ˆ˜์ˆ ์ด๋ผ๋Š” ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์—์„œ๋Š” ๋” ์ข‹์€ ์„ฑ์ ์„ ๋ณด์ผ ์ˆ˜ ์žˆ์ง€๋งŒ,

๋ฌด์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์€ P(AโˆฃB)>P(AโˆฃBC)P(A|B) > P(A|B^C)์™€ ๊ฐ™์ด ์—ญ์ „๋  ์ˆ˜๊ฐ€ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

โ‡’\Large\Rightarrow ์—ฌ๊ธฐ์„œ C(์ˆ˜์ˆ ์˜ ์ข…๋ฅ˜)๋Š” confounder (๊ต๋ž€๋ณ€์ˆ˜)๋ผ๊ณ  ํ•˜๋ฉฐ, ์ด๋ ‡๊ฒŒ ์ ์ ˆํ•œ confounder์— ์˜ํ•œ ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์„ ํ™•์ธํ•˜์ง€ ์•Š์œผ๋ฉด ์ƒํ™ฉ์— ๋Œ€ํ•œ ๊ทธ๋ฆ‡๋œ ํŒ๋‹จ์„ ๋‚ด๋ฆด ์œ„ํ—˜์ด ์žˆ๋‹ค.

์ „์ฒด ํ™•๋ฅ ์˜ ์ •์˜๋ฅผ ์ด์šฉํ•ด ์‹ฌ์Šจ์˜ ์—ญ์„ค์ด ํ‹€๋ ธ์Œ์„ ์ฆ๋ช…ํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€?

P(AโˆฃB)=P(AโˆฃB,C)P(CโˆฃB)+P(AโˆฃB,CC)P(CCโˆฃB)P(A|B) = P(A|B,C)P(C|B) + P(A|B,C^C)P(C^C|B) ์—์„œ

๋ฌธ์ œ์—์„œ ์ฃผ์–ด์ง„ ์กฐ๊ฑด์—์„œ P(AโˆฃB,C)<P(AโˆฃBC,C)P(A|B,C) < P(A|B^C,C), P(AโˆฃB,CC)<P(AโˆฃBC,CC)P(A|B,C^C) < P(A|B^C,C^C) ๋Š” ํ™•์ธ ๊ฐ€๋Šฅํ•˜์ง€๋งŒ,

P(CโˆฃB),P(CCโˆฃB)P(C|B), P(C^C|B) ๊ฐ€ ์ขŒํ•ญ, ์šฐํ•ญ์— ์„œ๋กœ ๋‹ค๋ฅธ ๊ฐ€์ค‘์น˜๋กœ ์ž‘์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ฆ๋ช…ํ•  ์ˆ˜ ์—†๋‹ค.

๋‚˜๋Š” ์ž˜ ์ดํ•ด๊ฐ€ ์•ˆ๊ฐ€์„œ ์ด๊ฑธ ์ฐธ๊ณ ํ–ˆ๋”๋‹ˆ ์ดํ•ด๊ฐ€ ์ข€ ๋๋‹ค.

ํ‘œ๋ณธ ํฌ๊ธฐ์˜ ์ฐจ์ด๊ฐ€ ์Šน๋ฅ ์˜ ๋น„์ค‘์„ ๋‹ค๋ฅด๊ฒŒ ๋งŒ๋“ค๊ณ  ๋‹ฌ๋ผ์ง„ ์Šน๋ฅ ์˜ ๋น„์ค‘์ด ํ•ฉ์‚ฐ๋œ ๊ฒฐ๊ณผ๋Š” ์ง๊ด€์„ ๊นจ๋Š” ๋“ฏํ•œ ์—ญ์„ค์„ ์ค€๋‹ค ๋ผ๋Š” ์ •๋ฆฌ.

(์•„์ง๊นŒ์ง€ ์„ค๋ช…์„ ์™„๋ฒฝํ•˜๊ฒŒ ํ•  ์ •๋„๋กœ ์ดํ•ด๋Š” ๋ชปํ•œ ๋“ฏ)

Last updated

Was this helpful?