5 Tue
Review and TIL
Review about AI School
ํ๋ฌ์ด ์กฐ๊ธ ๋๊ฒ ์งํํด์จ AI School. ์ค๋์ ์ด์๋ํ ์ ๋ฐ์ ์ธ ๋ฆฌ๋ทฐ๋ฅผ ๋จ๊ธฐ๊ณ ์ถ๋ค. ์์งํ๊ฒ ํํํ ๊ฒ์ด๋ฉฐ ๊ทธ๋์ ๊ต์ก์๋์ด ๋ถํธํ ์๋ ์๋ค. ํ์ง๋ง ๊ทธ๋ฐ ์์ฌ๋ฅผ ๋ณด๋ด๋ ค๋ ์๋๋ ์ ํ ์๋ค.
์ ํ๋์ ๊น์คํธ ๊ต์๋
๋ ๋ฃ๊ธฐ ์ข์๋ค. ํ๋ฐ์ ๊ฐ์๋ก ์กฐ๊ธ ์ด๋ ต๊ธด ํ๋๋ฐ, ๊ฐ๊ฐ์ ์ค๋ช ์ด ๋ฑ์ฅํ๋ ๋ฐฉ์์ด ์ด๋ ํ ์๋ฆฌ์์ ์ ๊ฐ๋์ด ๋ฐ์ ํ๋ ๊ณผ์ ์ด์ด์ ์ฌ๋ฏธ์์๋ค. ๋น์ ํ์ ๋ง์น ์์ธ์ ์ ์์ฌ๊น. ์์ฌ์ด ์ ์ AI์์ ๊ด๋ จ์ฑ์ ๊ทธ๋ค์ง ๋ง์ง ์์๋ค๋ ์ . ๋ ์ด ์ง์์ด ๋ฌด์์ธ์ง๋ ๊ถ๊ธํ์ง๋ง ์ด๋ป๊ฒ ์ฐ์ด๋ ์ง๋ ๊ถ๊ธํ๋ค. ๊ทธ๊ฒ ๋ ํฅ๋ฏธ๋กญ๊ณ ๋ด๊ฐ ๋์ค์ ํด๋น ์ง์์ ์ธ ๋๋ ๋ ๊ธฐ์ต์ ๋จ์ ๊ฒ ๊ฐ๋ค. ์ด์จ๋ , ๋ด๊ฐ ๋ํ์ ๋ ๋ฐฐ์ด ์ํ ์์ ์ด ์ด์ ๋์๋ค๋ฉด ์ํ์ ์ข ๋ ์ํ์์ง๋ ๋ชจ๋ฅด๊ฒ ๋ค.
ํต๊ณํ ์ด์ํ ๊ต์๋
์ด ๋๋ ์ข ์ฃผ์ถคํ๋ค. ๋ณดํต ํ์๋ค์ ๋์ด์ ์ค๋ช ์ ์ง๋ฃจํจ์ ๋๋ผ๋๋ฐ, ๊ทธ๋ฐ ๋๋์ด์๋ค. "AI์์ ๋ค๋ฃจ๋ ์ํ ์ง์์ ์ด์ ๋์ด๊ณ ์ด ์ ๋๋ง ์ปค๋ฒํ๋ฉด ๋ ๊ฑฐ์ผ" ๋ผ๋ ๋๋์ผ๋ก ๋ฐฐ์ด ๋์ด์ ์์ . ์ด๋ฐ ๋ด์ฉ์ ์ฌ์์ ๋ค์๋ง ํ๋๋ฐ ์คํ๋ฐ ๋ด์ฉ๋ถํฐ ์ข ๋ง์ด ์ง๋ฃจํ๊ณ ์ด๋ ค์ ๋ค.
๋ฐ์ดํฐ ๋ถ์ ์ดํธ์ค ๋ฉํ ๋
์๋นํ ๋ง์กฑ์ค๋ฌ์ ๋ค. ๋๋ฟ๋ง ์๋๊ณ ๋ค๋ค ๊ทธ๋ด๋ฏ. ์ฅฌํผํฐ๋ฅผ ์ฌ์ฉํ ์ , ๋ชจ๋ ์ฝ๋์ ๋ํด ์๊ธฐ ์ฝ๊ฒ ์ค๋ช ํ๋ ์ , ๋จ๊ณจ๋ง ์๋๋ค๋ ๊ฐ๊ทธ. ๋ฌผ๋ก ๊ต์ก์ ์์ด์ ์ฝ๋๋ฅผ ์ฌ์ฉํ๋๊น ์ข ๋ ์ฌ๋ฏธ์์ง๋ง ๊ทธ๋๋ ๋ ๋๊ฒ ์ดํดํ๋ ค๊ณ ๋ ธ๋ ฅํ๋ฉด์ ๋ค์๋ค. 3์ฃผ์ฐจ ์์ ์ ์ฌ๋ฏธ๋ ์์๊ณ ์ ์ผ ๊ธฐ์ต์ ๋จ๊ณ ์ ์ผ ๋ด๊ฒ์ผ๋ก ๋ง๋ ๊ฐ์์ธ ๊ฒ ๊ฐ๋ค.
4์ฃผ์ฐจ ์์ ์ ๋์ด๋๊ฐ ์ด๋ ค์ ๋ค. ์๋ฌด๋๋ ์ข ๋ด ์์ค์ด ํ๊ท ์๋๋ฉด ๊ทธ ์ดํ์ฌ์ ๊ทธ๋ฐ๊ฑธ๊น. ์ฌ์ง์ด ๋ณด๋์ค ๊ณผ์ ๋ ๋๋ฌด ์ด๋ ค์์ ์ข ๊ณคํน์ ๊ฒช์๋ค. ์๋ ๋ณด๋์ค ๊ณผ์ ๋ ๊ณผ์ ๋ผ๊ณ ์๊ฐํ๊ณ ํ๋ํธ์ธ๋ฐ ์ผ์ฃผ์ผ ๋๊ฒ ๋ชปํด์ ๊ทธ๋ฅ ํฌ๊ธฐํ๋ค. ์ ๋ฐ์ ์ผ๋ก ๊ธฐ๋ณธ์ ์ถฉ์คํ ์๋ ๋ฐฐ์ ๋ฐฉ์์ ์ถ๊ตฌํ๋ ๋๋ก์จ๋ ๊ถ๊ธํ๊ฒ ๋๋ฌด ๋ง๊ณ ์ฐพ๋ ์๊ฐ๋ ๊ฝค ๋ง์์, ๊ฐ๋ณ๊ฒ ๋ฐฐ์ด ๊ฒ์ ๋ํด ๊ณผ์ ๋ฅผ ํด๊ฒฐํ๋๊ฒ ๋ง์์ด ์ฌ๊ฐ ๋ถํธํ๊ธฐ๋ ํ๋ค. ๋ณด๋์ค ๊ณผ์ ๋ง ์ ์ธํ๋ฉด ์ฌ๋ฏธ์๋ ์์ ์ด์๋ค.
AWS ์ค์ฑ์ฐ ๋ฉํ ๋
์ข ํ๋ค์๋ ๊ฐ์์ด๋ค. ์์ง๋ ์๊ฐ๋ ๋ค ๋ชปํ๋ค. ๊ฐ์ ์๋ฃ๋ ์ ์๋ณด์ฌ์ ๊ทธ๋ฆผํ์ ์บก์ณํด์ ํ๋ํด๊ฐ๋ฉด์ ์งํํ๊ณ ์๋ฆฌ๋ ๋๋ฌด ์์๋ค. ๊ทธ๋ฆฌ๊ณ ์ ์ผ ๋ถํธํ ๊ฑด ๊ฐ์ ์งํ์ด ๋๋ฌด ๊ฐ๋จํ๊ณ ์๋ต์ด ๋ง์๋ค. "์ด ๋ฒํผ์ ์ด๋์ชฝ์ ์ด๋ ํญ๋ชฉ์ ์๊ณ " ์ ์ค๋ช ์ด ์๋ "๊ทธ๋ฆฌ๊ณ ์ด ๋ฒํผ์ ๋๋ฅด์๋ฉด ์ฌ๊ธฐ๋ก ๊ฐ์ง๋๋ค" ์ ์ค๋ช ์ด๋ผ์ ์ค๊ฐ์ ๊ฐ์๋ฅผ ๋๊ฒ ๋ง์ด ๋ฉ์ถ๊ณ ๋ค์ ๋๋ ค๋ณด์๋ค. ๊ทธ๋ฆฌ๊ณ ์ฝ๋ ์งํํ๋ฉด์ ๋ฌธ์ ๊ฐ ๋๋ฌด ๋ง์ด ๋ฐ์ํด์ ๊ตฌ๊ธ๋ง ํ๋ ์๊ฐ์ด ๋๋ฌด ๋ง์๋ค. ์๋ ์ด๋ด ๋ ์ ์ผ ์กธ๋ฆฌ๊ณ ๋ต๋ตํ ์ฌ์ค. (๋ง์น ์ํ๋ฌธ์ ๊ฐ ์ํ๋ฆฌ๋ ๋๋์ด๋๊น) ๊ทธ๋ฌ๋ค๊ฐ git clone๋ ์๋๋ ์ฌํ๊ฐ ๋ฒ์ด์ก๋ค. (์๋ ์ด ๊ฐ๋จํ๊ฒ ๋๋์ฒด ์ ์๋์ง) AWS์์๋ ๋งํ๊ฐ์ง๊ณ ๊ฒ์๋ ํด๋ณด๊ณ ๋ฉํ ๋๊ป ์ง๋ฌธ๋ ํ๋ฉด์ ์๋ก EC2๋ฅผ ๋ค ๋ง๋ค๊ณ ์งํํ๋๋ฐ๋ ๋์ง ์์์ ๋ค์ ์ฅ์ผ๋ก ๋ชป๋์ด๊ฐ๋ค. ๋ด๊ฐ ์์ ์ง๋๋ฅผ ๋๊ฐ๋ ๋ชป๋๊ฐ๋๋ ์ค์ํ๊ฒ ์ง๋ง ์์ ์ด ๋ง์กฑ์ค๋ฝ์ง๋ ์์๋ค. ์ฌ๋ฌ ๊ฐ์ง ์๋ฌ์ฒ๋ฆฌ๋ฅผ ์ข ๋ค๋ค์ฃผ๊ณ ์ง์ ์ฌํญ์ด ์ข ๋ ์์ธํ๋ฉด ์ข์ ๊ฒ ๊ฐ๋ค.
์ข ๋ถ์ ์ ์ธ ๊ฐ์๋ก ์ธ์์ด ๋จ์ ๊ฑด ์ค์ ๋น์ฉ์ด ๋ฐ์ํด์์ด๋ค. ๋๋ AWS๋ฅผ ์ฒ์ ์ฌ์ฉํ๊ณ AWS๊ฐ ๋๋ฌด ํ์ฉํ๊ธฐ ์ด๋ ค์ ๋๋ฐ(๋๋ฌด ๋์กํ ์ธํฐํ์ด์ค๋ผ๊ณ ์๊ฐ), ๋น์ฉ์ด ๋ฐ์ํด์ ๋๋๊ณ ์ด๊ฑธ ์ ๊ฐ์ ์ด๋ฐ์ ์ธ๊ธํด์ฃผ์ง ์์์๊น ํ๋ ์ธ์งข์์ด ์ฌ๋ผ์๋ค. ๊ฒ์ํด๊ฐ๋ฉด์ ์ธ์คํด์ค๋ฅผ ์ทจ์ํ๊ณ ๋ฆฌ์์ค ์ทจ์ํ๊ณ ํ๋๋ฐ๋ ํ๋ฃจํ๋ฃจ ์ง๋ ๋ ๋ง๋ค ๋น์ฉ์ด ๋์ด๋์ ๊ณ์ ๊ธฐ๋ถ์ด ์์ข์๋ค. 1์ฃผ์ผ ๋์ ๊ณ์ ์์ ๋ ๋น์ฉ์ด ๊ณ์ ๋ฐ์ํด์ ์ฌ๋ฌ ์ง์ธ์๊ฒ ๋์์ ์์ฒญํ๊ณ ๊ทธ๋๋ ํด๊ฒฐํ์ง ๋ชปํ์ฑ ๋น์ฉ์ด ๋ฐ์ํด์ ๊ณ ๊ฐ์ผํฐ์ ๋ฌธ์ํ๋ค. ์ ์์ ์ผ๋ก ํ๋ถ ์ฒ๋ฆฌ๊ฐ ๋์๊ณ ๊ธฐ๋ถ์ ์ข์ง ์์๋ค. ์ด ๊ฐ์๋ฅผ ๋ฃ๊ณ AWS์ ๋ํ ์ด๋ฏธ์ง๋ ์ข ๋ถ์ ์ ์ผ๋ก ๋ ๊ฒ ๊ฐ๋ค. ์ข ์์ฌ์ด ๊ฐ์์ด๋ค.
ML ๊ธฐ์ด ๊ฐ์ฐฝ์ฑ๊ต์๋
๋จธ์ ๋ฌ๋์ ์ ๋ฐ์ ์ธ ์ด์ผ๊ธฐ๊ฐ ์ํ์ ๊ฐ๋ ค์ง๊น ์ํ์ ๋นผ๊ณ ์ฝ๊ฒ ์ค๋ช ํด์ฃผ๋ ์ฑ ์ด ์๋ค. ๊ทธ๋ฆฌ๊ณ ๊ฐ์์์ ํ์ ์ด์ผ๊ธฐ์ฒ๋ผ ๋จธ์ ๋ฌ๋์์ ์ํ์ด ์ค์ํ๊ธฐ์ ๋นผ๊ณ ์ค๋ช ํ๋ ๊ฒ์ ์ถ์ฒํ์ง๋ ์๋๋ค๋ผ๋ ๋ง๋ ๊ณต๊ฐํ๋ค. ๊ทผ๋ฐ, "์ด ์ํ์ด ์ด๋ป๊ฒ ์ด๋ค ๋ชจ๋ธ์์ ์ด๋ป๊ฒ ์ฐ์ด๋ฉฐ, ์ด ์ง์์ ์ด๋ป๊ฒ ํ์ฉํ ์ ์๋ค" ๋ฅผ ๊ฐ์ํด์ฃผ์ง ์์์ ์์ฌ์ด ๊ฒ ๊ฐ๋ค. ๋จํธ์ ์ด๊ณ ์ฑ๊ธํ ํ๊ฐ์ผ ์ง ๋ชจ๋ฅด์ง๋ง, ๋๊ฐ ๊ต์ก์์ ๊ต์ก ๋ฐฉ์์ ๋ชจ๋ ์์ ์์ ๊ฑฐ์ ๋์ผํ๊ธฐ์ ์์ผ๋ก์ ์์ ์ด ์ง๋ฃจํ ๊ฒ ๊ฐ๊ณ ๋ฌด์ญ๋ค. ์ค๋ ๋ฐฐ์ด ์ด ์ง์๋ค์ ์ ๋ด์๋์ ํ์์ด ๋ช์ด๋ ์์๊น. ์ข ์ง๋ฃจํ๊ตฌ ๋ํดํ๋ค.
์ํ ๊ณต๋ถ๊ฐ ์๋๋ผ ๋จธ์ ๋ฌ๋์ ์ํ ์ํ ๊ณต๋ถ๋ผ๋ฉด(๋ ๊ทธ๋๋ ์ํ ๊ณต๋ถ๋ ๋ง์ฐฌ๊ฐ์ง๋ผ๊ณ ์๊ฐํ๋ค) ์ข ๋ ์๋ก๊ฐ์ ์ฐ๊ฒฐ์ฑ์ ์ธ๊ธํ๋ฉด์ ์ฌ์ด ์ค๋ช ์ด ํ์ํ๋ค๊ณ ์๊ฐํ๋ค. ์ค๋ ๊ฐ์๋ ํ์ด์ง1์ฅ ์ค๋ช , ํ์ด์ง2์ฅ ์ค๋ช ์ ๊ทธ์น์ง ์์๋ ๊ฒ ๊ฐ๋ค.
ML ๊ฐ์๋ ์ํ์ฒ๋ผ ๋น์ทํ ๋ถ์๊ธฐ๊ฐ ๋์ง ์์๊น ๊ฑฑ์ ๋์ง๋ง ๊ธฐ๋๋ ํ๋ค.
+ (01 / 08 ์ถ๊ฐ)
์์.. ์์ ์ ๋ค ๋ฃ๊ณ ํ๊ธฐ๋ฅผ ๋จ๊ฒจ๋ณธ๋ค.
์ฒซ๋ฒ์งธ. ์ผ๋จ ๊ต์ก์์ ๊ต์ก ๋ฐฉ์์ ๋ชจ๋ ์์ ์์ ๊ฑฐ์ ๋์ผํ๋ค๋ ๋ถ๋ณ์ด๋ค. ์ฒซ์์ ์ ๋ํดํ๊ณ ์ง๋ฃจํ๋๋ฐ ๊ทธ ๊ธฐ๋ฅ๊ฐ ๋ง์ง๋ง ์์ ๊น์ง ์ด์ด์ก๋ค.
๋๋ฒ์งธ. ๊ฐ์ฌ๋๋ง ์ ๋ฌธ์ ์ด๋ผ๊ณ ์๊ฐํ๋ค. ์ ๋ฌธ์ ์ธ ์ง์ ์ ๋ฌ์ ์์ด์ ์ ์ด๋ ๋ด ์์ค์ผ๋ก๋ ๊ต์ฅํ ์ด๋ ต๋ค. ์ด๋ ค์ด ์ด์ ๋ ๋ฐฐ๊ฒฝ ์ง์์ด ๋ถ์กฑํด์ ์ผ์๋ ์๊ฒ ์ง๋ง ์ค๋ช ์ ์๋ต์ด ๋ง๊ณ ์ข ๋ ์ด๋ ค์ด ์ง์์ด ๋ฑ์ฅํ๋๋ผ๋ ์ถ๊ฐ์ ์ธ ์ค๋ช ์ด ๋ง์ด ์๋ค. ๋, ์ฅฌํผํฐ๋ฅผ ํตํ ์ค์ต์์๋ ์ด ์ฝ๋๋ฅผ ์น๋ฉด ๋ฉ๋๋ค ํ๊ณ ๋์ด๊ฐ๋. ์์์ ๋ฉ์ถฐ๋๊ณ ์ฝ๋๋ฅผ ์์ฑํ๋ฉด์๋ ๋ชจ๋ฅด๋ ์ฝ๋๋ ๋ง์์ ์ผ์ผ์ด ๊ฒ์ํ๋ฉด์ ์ค์ตํ๋ค. (๋๊ตฌ๋ ์ด๊ฒ์ด ๊ณต๋ถ๋ผ๊ณ ํ๊ฒ ์ง๋ง, ์ ๋ฐ์ ์ธ ์์ ๋ด์ฉ์ ๋ค ๊ฒ์ํด์ผ ํ๋ค๊ณ ?)
์ธ๋ฒ์งธ. ๋จธ์ ๋ฌ๋ ๊ฐ์์ ์ฒซ์ฃผ๋ฅผ ์จํต ์ํ์ผ๋ก ๋ณด๋ธ๊ฑธ ๋ณด๋ฉด ๊ทธ๋๋ ์ํ์ด ๊ฝค ์ค์ํ๊ตฌ๋ ๋ผ๋ ๊ฑธ ๊ฐ์กฐํ์๋ ๊ฒ ๊ฐ๋ค. ๋๋ ์ง๊ธ๊น์ง ์ํ์ ๋ค๋ฃจ๋ ์ฑ ๋ค์ ๋ง์ด ์ฝ์ด๋ณด์์ง๋ง ๋์ค์ ์ฝ์ง ๋ชปํ๊ณ ํฌ๊ธฐ๋ฅผ ๋ง์ด ํ๋๋ฐ, ๋ค์ ํ๋ฒ ์ํ์ ๋ฐฐ์์ผ ๋ ๊ฒ ๊ฐ๋ค๋ ๋ค์ง์ ํ์.
์ค์ฟจ ๋ฆฌ๋ทฐ
๋์ฒด๋ก ์ฝ๋ ์์ ์ ํ ๋๋ ๊ทธ๋ ์ง ์์๋ฐ. ์ํ ์์ ์ ํ ๋์๋ ํ๊ธฐ๊ฐ ๋๋ฌด ์ค๋๊ฑธ๋ฆฐ๋ค. AI ์ค์ฟจ์ ๋ํด TIL์ ์ฐ๊ธฐ๋ฅผ ๊ถ์ฅํ๋ฉด์ ์ ์๊ถ ๋๋ฌธ์ ๋จ์ํ ์ํ ์์ ๋๋ ์บก์ณํ์ง ๋ชปํ๊ฒ ํ๋ค๋ฉด ์ ์ด๋ ๊ฐ์์์ ์ฌ์ฉ๋๋ ์์์ ๋ํ Free-Image๋ ๋งํฌ๋ค์ด ์ ๋๋ ์ ๊ณตํด์ค์ผ ๋๋ค๊ณ ์๊ฐํ๋ค. ๊ต์ฅํ ๋ง์ ์์์ ์ ์ผ๋ ค๊ณ ๋ชจ๋ ํ์๋ค์ด ๋ค ์ค๋์๊ฐ ๋ ธ๋ํ์ง ์๊ฒ ๋๊ฐ. (์ ๊ทธ๋ฅ ์์์ ์์ ์ผ๋ ค๋...)
๋, ์ฝ๋ ๋ฆฌ๋ทฐ๋ ์ง๋ฌธ์ด ์๊ฐ๋ณด๋ค ๋ต๋ณ์ด ๋ฆ๋ ์ ์ด ์์ฌ์ ๋ค. ๋ค๋ค ํ์ ์ ์์ด์ ๊ทธ๋ฐ๊ฐ ๋ณด๋ค ํ๊ณ ์ฃผ๋ง์ ๊ธฐ๋ค๋ ธ๋๋ฐ๋ ํผ๋๋ฐฑ์ด ์์ด์ ์์ฌ์ ๋ค.(๊ทธ๋๋ ํธ์ค ๋ฉํ ๋์ด ๋๋ฌด ํผ๋๋ฐฑ์ ์ํด์ฃผ์ ์ ๊ฐ์ฌํ๋ค) ์์ฆ์ ์ง๋ฌธ๋ณด๋ค๋ ๊ตฌ๊ธ๋ง์ผ๋ก ๊ฑฐ์ ํด๊ฒฐํ๋ ค๊ณ ํ๊ณ ์ง์ง ๋ชจ๋ฅด๊ฒ ์ผ๋ฉด ์ฌ๋์ ๋ฌผ์ด๋ณด๊ธด ํ๋ค. ์ ๋ฐ์ ์ผ๋ก ์ธ์ ๋๋ ๋ถ์๊ธฐ๋ฅผ ์ ์ด๋์ด์ฃผ๊ณ ์ํต์ ๊ต์ฅํ ์ํด์ฃผ์ ์ ์ข๋ค. ๊ทธ๋ฆฌ๊ณ ๋ค๋ค ์ ๊ทน์ ์ผ๋ก ๋์์ฃผ๋ ค๋ ๋๋น์ด์ด์ ๊ฐ์ฌํ๋ค. ์์ฌ์ด ์ ๋ง ๋งํด์ ๊ทธ๋ ์ง, ๋ง์กฑ๋๋ 7-8์ ์ด์์ด๋ค. ๋๋ฌด ๋ถํ๋ถ๋ง์ผ๋ก ๋ณด์์ผ๋ ค๋. ์ง์ง.. ์ง์ง..
๋ ์๊ฐ๋ ๊ฒ์ด ์๋๋ฐ, ๋ฐฐ์ ๊ธฐ๋ก ์นด๋๋ ๋ฉํ ๊ฐ ์ถ์ฒํ๋ ๊ฒ์ด ๋ง๋ค๊ณ ์๊ฐํ๋ค. ํ์ฌ ์ถ์ฒ ๋ฐฉ์์ด ๋ชจ๋ ์ธ์์ด ์ฐธ์ฌํ์ง ์๊ณ , ๋ ๋ชจ๋ ์ธ์์ด ๋ค๋ฅธ ์ด์ ๋ฐฐ์ ๊ธฐ๋ก ์นด๋๋ฅผ ์ผ์ผ์ด ๋ค ๋ณด์ง ์์ ๊ฒ์ด๋ค. ๋ "์ด์์ง"๋์ด ์ ์ผ ์ ํ๋ค๊ณ ์๊ฐํ๋๋ฐ(๋๋ ๋ชจ๋ ์ธ์์ ๋ฐฐ์ ๊ธฐ๋ก ์นด๋๋ฅผ ๋ณธ ๊ฒ์ ์๋์ง๋ง ๊ทธ๋๋ ๋์ฒด๋ก ๋ดค์ ๋ ์ ์ผ ์์ป๊ณ ๋ ธ๋ ฅ์ด ๋ณด์ธ๋ค) ์ด ๋ถ์ด ์์๊ถ์ ์ฌ๋ผ๊ฐ์ง ์๋๊ฒ ์ด์ํ ์ ๋.
[์ธํ๋ฐ] ๋จ ๋ ์ฅ์ ๋ฌธ์๋ก ๋ฐ์ดํฐ ๋ถ์๊ณผ ์๊ฐํ ๋ฝ๊ฐ๊ธฐ
์๊ณ์ด ๋ฐ์ดํฐ(Time Series Data) ๋ถ์์ ์ํ ํ๋ค์ค Expanding and Rolling ์ดํดํ๊ธฐ - Windows
plot์ ๋ณดํต ์ด๋ํ๊ท ์ ๊ตฌํ ๋ ์ฌ์ฉํ๋ค. (moving average)
A
B
C
D
2020-01-01
-1.018892
0.842255
-0.987166
-0.597796
2020-01-02
0.109856
-0.017367
-0.120858
-0.263876
2020-01-03
-0.664397
0.611548
0.562033
-0.564003
2020-01-04
-0.159660
0.130362
1.087226
1.136409
2020-01-05
-0.236306
0.901542
0.642744
-1.831807
...
...
...
...
...
2022-09-22
0.475307
-0.239127
0.852104
-0.170865
2022-09-23
0.000562
0.120297
0.885682
-0.085760
2022-09-24
-0.040042
-0.339307
-0.082087
0.848679
2022-09-25
-0.272293
-1.296961
0.230514
-0.849387
2022-09-26
-0.229110
-0.066247
0.093493
-0.149113
1000 rows ร 4 columns
A
B
C
D
2020-01-01
-1.018892
0.842255
-0.987166
-0.597796
2020-01-02
-0.909036
0.824888
-1.108024
-0.861672
2020-01-03
-1.573433
1.436436
-0.545991
-1.425675
2020-01-04
-1.733093
1.566798
0.541234
-0.289266
2020-01-05
-1.969399
2.468341
1.183978
-2.121073
...
...
...
...
...
2022-09-22
-55.677922
-53.406551
64.343770
6.064137
2022-09-23
-55.677360
-53.286254
65.229452
5.978377
2022-09-24
-55.717402
-53.625562
65.147365
6.827056
2022-09-25
-55.989695
-54.922523
65.377879
5.977669
2022-09-26
-56.218805
-54.988770
65.471372
5.828556
1000 rows ร 4 columns
B
0
0.0
1
1.0
2
2.0
3
NaN
4
4.0
์ค๊ฐ์ NaN์ด ์์ด์ ๊ทธ๋ํ๊ฐ ๋๊ธฐ๋ ๊ฒ์ ๋ณผ ์ ์๋ค => Expanding์ด ํ์!
B
0
NaN
1
1.0
2
3.0
3
3.0
4
7.0
ํ์ด์ฌ ํ๋ค์ค๋ก Series ์ DataFrame ๋ฐ์ดํฐ ์๊ฐํ ํ๊ธฐ ์๊ฐ - Plotting
plot
A
B
C
D
2020-01-01
-0.494674
0.168681
0.251175
0.574593
2020-01-02
1.715208
0.956359
0.149570
0.385309
2020-01-03
1.064786
0.482158
0.142449
0.829651
2020-01-04
-1.873236
-1.087397
-1.401830
-0.522738
2020-01-05
2.044977
0.423282
0.132798
0.043316
...
...
...
...
...
2022-09-22
-1.494242
2.286578
0.045736
-0.210665
2022-09-23
-0.922229
-0.520283
0.887929
-0.417726
2022-09-24
-1.244146
0.125490
1.108425
0.116583
2022-09-25
-0.654476
-0.596485
-1.908873
-1.268358
2022-09-26
0.680929
0.989327
-0.790184
1.183248
1000 rows ร 4 columns
B
C
0
0.743316
0.712930
1
0.703344
1.902628
2
0.793851
2.953486
3
-0.741258
2.168597
4
-0.241436
3.004576
B
C
A
0
0.743316
0.712930
0
1
0.703344
1.902628
1
2
0.793851
2.953486
2
3
-0.741258
2.168597
3
4
-0.241436
3.004576
4
ํ์ด์ฌ ๋ฐ์ดํฐ ์๊ฐํ ํ๋ค์ค๋ก bar plot ๋ง๋๊ทธ๋ํ ๊ทธ๋ฆฌ๊ธฐ - Plotting
A
B
C
D
2020-01-01
-0.000248
0.468759
-0.570039
0.922824
2020-01-02
-0.900794
-2.259521
0.328642
0.522356
2020-01-03
-0.478821
1.064958
0.245880
1.558642
2020-01-04
-0.953477
1.419711
1.096004
0.581822
2020-01-05
0.400680
-0.037835
-0.767587
0.150695
2020-01-06
-0.470434
-0.026065
0.629644
0.113024
A
B
C
D
2022-09-24
0.779658
-0.688993
0.583472
-0.693562
2022-09-25
0.514137
-0.193501
-0.004432
0.905607
2022-09-26
0.087004
0.291302
2.354743
0.235747
A
B
C
D
2020-01-01
-0.000248
0.468759
-0.570039
0.922824
2020-01-02
-0.900794
-2.259521
0.328642
0.522356
2020-01-03
-0.478821
1.064958
0.245880
1.558642
2020-01-04
-0.953477
1.419711
1.096004
0.581822
ํ์ด์ฌ ๋ฐ์ดํฐ ์๊ฐํ ํ์คํ ๊ทธ๋จ๊ณผ ๋์๋ถํฌํ ์ดํดํ๊ธฐ - Plotting
Histogram
๋์๋ถํฌํ vs ํ์คํ ๊ทธ๋จ
๋์๋ถํฌํ : ํน์ ๊ตฌ๊ฐ์ ์ํ๋ ์๋ฃ์ ๊ฐ์๋ฅผ ํํ
ํ์คํ ๊ทธ๋จ : ๋์๋ถํฌํ๋ฅผ ์๊ฐํํ์ฌ ๋ง๋๊ทธ๋ํ๋ก ํํ, ํ์ง๋ง bar plot๊ณผ๋ ๋ค๋ฆ
๋ง๋๊ทธ๋ํ vs ํ์คํ ๊ทธ๋จ (bar plot vs hist plot)
bar plot : ํํ ๊ฐ์ ๋น๋กํ์ฌ ๋์ด์ ๊ธธ์ด๋ฅผ ์ง๋ ์ง์ฌ๊ฐํ ๋ง๋๋ก ๋ฒ์ฃผํ ๋ฐ์ดํฐ๋ฅผ ํํํ๋ ์ฐจํธ๋ ๊ทธ๋ํ, ํฉ๊ณ, ํ๊ท ๋ฑ์ ์์น๋ฅผ ์๊ฐํ
hist plot : ๊ตฌ๊ฐ๋ณ ๋น๋์๋ฅผ ํํ
ํ์คํ ๊ทธ๋จ vs ์ ๊ท๋ถํฌ (hist plot vs density plot)
hist plot : ๊ตฌ๊ฐ๋ณ ๋น๋์
density plot : ํ๋ฅ ๋ฐ๋ ํจ์ - ํ๋ฅ ๋ณ์์ ๋ฐ๋๋ฅผ ํํ
a
b
c
0
0.233627
0.933449
-2.384155
1
2.890279
-0.604678
-1.667775
2
1.490996
-0.958704
-0.533509
3
-0.549594
-1.567981
-2.083608
4
2.881449
2.508202
-4.514146
a
a_shift
a_minus
a_diff
0
0.233627
NaN
NaN
NaN
1
2.890279
0.233627
2.656652
2.656652
2
1.490996
2.890279
-1.399283
-1.399283
3
-0.549594
1.490996
-2.040590
-2.040590
4
2.881449
-0.549594
3.431044
3.431044
a
b
0
0.494461
0
1
0.377023
1
2
0.127343
1
3
0.262922
0
4
0.035662
0
ํ์ด์ฌ ์๊ฐํ ์์ ์์ผ ๊ทธ๋ฆผ(box plot) ๊ทธ๋ฆฌ๊ธฐ - Plotting
box plot
๊ฐ๊ณตํ์ง ์์ ์๋ฃ ๊ทธ๋๋ก๋ฅผ ์ด์ฉํ์ฌ ๊ทธ๋ฆฐ ๊ฒ์ด ์๋๋ผ, ์๋ฃ๋ก๋ถํฐ ์ป์ด๋ธ ํต๊ณ๋์ธ 5๊ฐ์ง ์์ฝ ์์น๋ก ๊ทธ๋ฆฐ ๊ฒ.
์ต์๊ฐ
์ 1 ์ฌ๋ถ์์
์ 2 ์ฌ๋ถ์์(=์ค์๊ฐ)
์ 3 ์ฌ๋ถ์์
์ต๋๊ฐ
A
B
C
D
E
0
0.370232
0.606418
0.652095
0.492909
0.349718
1
0.112048
0.106915
0.265264
0.728334
0.494577
2
0.004974
0.729390
0.920953
0.773177
0.977718
3
0.934579
0.708746
0.029470
0.329899
0.377750
4
0.856339
0.376554
0.731859
0.703761
0.995195
5
0.635157
0.040028
0.316238
0.307590
0.040899
6
0.017509
0.356093
0.728913
0.297290
0.337541
7
0.128064
0.690733
0.733154
0.523859
0.315686
8
0.115399
0.202518
0.540844
0.667318
0.415735
9
0.645682
0.007744
0.336712
0.230469
0.553611
A
B
C
D
E
count
10.000000
10.000000
10.000000
10.000000
10.000000
mean
0.381998
0.382514
0.525550
0.505461
0.485843
std
0.357076
0.286496
0.277474
0.204475
0.296292
min
0.004974
0.007744
0.029470
0.230469
0.040899
25%
0.112886
0.130816
0.321356
0.313168
0.340585
50%
0.249148
0.366324
0.596469
0.508384
0.396742
75%
0.643050
0.669654
0.731123
0.694650
0.538853
max
0.934579
0.729390
0.920953
0.773177
0.995195
0
1
2
3
4
0
0.929338
0.659756
0.972052
0.521413
0.215369
1
0.450177
0.283452
0.816272
0.466250
0.451954
2
0.877936
0.720482
0.350979
0.020901
0.633757
3
0.445642
0.444882
0.349320
0.321260
0.384497
4
0.404033
0.092795
0.097995
0.723962
0.870682
Col1
Col2
0
0.463268
0.297339
1
0.594417
0.267667
2
0.666147
0.707854
3
0.378402
0.735593
4
0.420503
0.365746
Col1
Col2
X
0
0.463268
0.297339
A
1
0.594417
0.267667
A
2
0.666147
0.707854
A
3
0.378402
0.735593
A
4
0.420503
0.365746
A
ํ์ด์ฌ ๋ฐ์ดํฐ ์๊ฐํ Area plot, Grid ์ต์
์ผ๋ก ๊ทธ๋ํ ๊ฒฉ์ ๋ง๋ค๊ธฐ - Plotting
Area plot
๊ธฐ๋ณธ์ ์ผ๋ก stacked=True์ธ ๊ทธ๋ํ๋ฅผ ๊ทธ๋ฆฐ๋ค
a
b
c
d
0
0.156005
0.052212
0.188224
0.807246
1
0.667732
0.712762
0.537092
0.519210
2
0.034637
0.735852
0.533051
0.258751
3
0.250128
0.011195
0.654490
0.954305
4
0.794724
0.648470
0.988780
0.206013
5
0.656444
0.189838
0.076012
0.627008
6
0.191030
0.520235
0.869168
0.957507
7
0.795974
0.170474
0.791833
0.782586
8
0.980319
0.722360
0.134649
0.879211
9
0.751361
0.697953
0.240086
0.953517
ํ์ด์ฌ ๋ฐ์ดํฐ ์๊ฐํ scatter plot, ์ฐ์ ๋ ๊ทธ๋ฆฌ๊ธฐ - Plotting
Scatter plot
ํ์ด์ฌ ๋ฐ์ดํฐ ์๊ฐํ ํ์คํ ๊ทธ๋จ๊ณผ ์ฐ์ ๋๋ฅผ ๋ณด์ํ Hexbin plot ๊ทธ๋ฆฌ๊ธฐ - Plotting
๋ฐ์ดํฐ๊ฐ ๋๋ฌด ๋ง์ ๋ Hexagonal Bin Plot์ ์ฌ์ฉํ๋ค. Scatter plot์ ๋จ์ ์ ๋ณด์ํ๋ค
a
b
0
0.143530
0.168155
1
0.510635
1.377011
2
-0.440050
2.127910
3
1.717786
1.872928
4
-0.691979
3.942575
...
...
...
995
1.212032
996.148623
996
-1.094107
996.484877
997
1.512110
996.442078
998
-0.523446
999.116458
999
-1.085693
997.781039
1000 rows ร 2 columns
a
b
z
0
0.143530
0.168155
2.223601
1
0.510635
1.377011
0.424057
2
-0.440050
2.127910
0.388958
3
1.717786
1.872928
0.238032
4
-0.691979
3.942575
1.840137
...
...
...
...
995
1.212032
996.148623
1.041120
996
-1.094107
996.484877
2.818773
997
1.512110
996.442078
1.570454
998
-0.523446
999.116458
1.100353
999
-1.085693
997.781039
0.660611
1000 rows ร 3 columns
Pandas pie plot, ์ ๊ทธ๋ํ, ์ seaborn ์๋ ํ์ด์ฐจํธ๊ฐ ์์๊น? - Plotting
Pie plot
seaborn์์๋ ์ง์ํ์ง ์๋๋ค. (์์ผ๋ก๋ ์ง์ํ ์์ ์ด ์์) ์ด์ : ์คํด์ ์์ง๊ฐ ์๊ณ , ๋ฐ์ดํฐ๋ฅผ ์ ํํ๊ฒ ํํํ์ง ๋ชปํ ๋๊ฐ ์๋ค.
Scatter Matrix Plot ์ฐ์ ๋์ ์ปค๋๋ฐ๋ํจ์๋ฅผ ํจ๊ป ํํ - Plotting
a
b
c
d
0
0.887408
-0.002276
-1.342932
-0.202530
1
-1.443966
-0.018683
-0.676024
0.478978
2
-0.665443
-0.916739
-0.566526
0.948019
3
-0.621182
-1.709215
-0.375141
-1.305123
4
1.656003
-0.898862
-1.744376
0.926337
ํ์ด์ฌ ์๊ฐํ ๋ถํฌ๋ ๊ทธ๋ฆฌ๊ธฐ, Kernel Density Estimate plot ์ปค๋๋ฐ๋ํจ์ - Plotting
KDF
ํต๊ณ์์ ์ปค๋ ๋ฐ๋ ์ถ์ ์ ์์์ ๋ณ์์ ํ๋ฅ ๋ฐ๋ ํจ์๋ฅผ ์ถ์ ํ๋ ๋น๋ชจ์์ ๋ฐฉ๋ฒ์ด๋ค. ์ด ํจ์๋ ๊ฐ์ฐ์ค ์ปค๋์ ์ฌ์ฉํ๋ฉฐ ์๋ ๋์ญํญ ๊ฒฐ์ ์ ํฌํจํ๋ค.
์ปค๋ ๋ฐ๋ ์ถ์ ์น๋ ํ์คํ ๊ทธ๋จ๊ณผ ๋ฐ์ ํ ๊ด๋ จ์ด ์์ง๋ง ์ ์ ํ ์ปค๋์ ์ฌ์ฉํ๊ณ ๋งค๋๋ฝ๊ณ ์ฐ์์ฑ๊ณผ ๊ฐ์ ์์ฑ์ ๋ถ์ฌํ ์ ์๋ค.
์ปค๋ ํจ์๋ ์์ ์ ์ค์ฌ์ผ๋ก ๋์นญ์ด๋ฉฐ ์ ๋ถ๊ฐ์ด 1์ธ ํจ์์ด๋ค
๋น๋ชจ์ ํต๊ณ๋ฒ ์ฌ์ฉ์ ์กฐ๊ฑด
์๋ฃ๊ฐ ๋ํ๋ด๋ ๋ชจ์ง๋จ์ ํ์์ด ์ ๊ท๋ถํฌ๊ฐ ์๋ ๋
์๋ฃ๊ฐ ๋ํ๋ด๋ ๋ชจ์ง๋จ์ ํ์์ด ์ ๊ท๋ถํฌ๋ก ์ ์ ํ ๋ณํ๋์ง ๋ชปํ ๋
์๋ฃ์ ํ๋ณธ์๊ฐ ์ ์ ๋
์๋ฃ๋ค์ด ์๋ก ๋ ๋ฆฝ์ ์ผ ๋
๋ณ์ธ์ ์ฒ๋๊ฐ ๋ช ๋ช ์ฒ๋๋ ์์ด์ฒ๋์ผ ๋
์ปค๋ ๋ฐ๋ ํจ์๋ ์ ํ์คํ ๊ทธ๋จ์ ๋ถ๋๋ฝ๊ฒ ํํํ ๊ฒ์ด๋ค ํ์คํ ๊ทธ๋จ์ frequency๋ฅผ ์ถ์ผ๋ก ๊ฐ์ง์ง๋ง ๋ฐ๋ ํจ์๋ density๋ฅผ ์ถ์ผ๋ก ๊ฐ์ง๋ค density == kde
Last updated
Was this helpful?