(05๊ฐ) Dataset & Dataloader
210818
Last updated
Was this helpful?
210818
Last updated
Was this helpful?
Data : ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ณ ์ ๋ฆฌํ๊ณ ์ ์ฒ๋ฆฌ ํ๋ค
Dataset : ์ด๋ฌํ ๋ฐ์ดํฐ๋ฅผ ๊ด๋ฆฌํ Dataset์ ์ ์ํ๋ค
__init__()
: ์์ํ ๋ ๋ฐ์ดํฐ๋ฅผ ์ด๋ป๊ฒ ๋ถ๋ฌ์ฌ ์ง
__len__()
: ๋ฐ์ดํฐ ์
์ ํฌ๊ธฐ ๋ฐํ
__getitem__()
: map-style
์ด๋ผ๊ณ ๋ ํ๋ฉฐ ํ๋์ ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฌ์ฌ ๋ ์ด๋ป๊ฒ ๋ฐํํด์ค์ง๋ฅผ ์ ์. ๋ณดํต์ ์ธ๋ฑ์ค๋ฅผ ์ฌ์ฉํ๋ค
Transforms : ๋ฐ์ดํฐ๋ฅผ ๋ณํ์ํจ๋ค.
Augmentation ํ ๋๋ ์ด ๊ณผ์ ์ ๊ฑฐ์น๋ค
ํ ์๋ก ๋ฐ๊พธ์ด์ฃผ๋ ๋ถ๋ถ๋ ์ฌ๊ธฐ์ ์ํจ
DataLoader : ๋ชจ๋ธ์ ๋ค์ด๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ต์ข ์ ์ผ๋ก ์ ์
Model : ๋ฐ์ดํฐ๋ฅผ ์ ๋ ฅ
๋ฐ์ดํฐ ์ ๋ ฅ ํํ๋ฅผ ์ ์ํ๋ ํด๋์ค
๋ฐ์ดํฐ๋ฅผ ์ ๋ ฅํ๋ ๋ฐฉ์์ ํ์คํ
5 : ์ด๊ธฐ์ ๋ฐ์ดํฐ ์์ฑ ๋ฐฉ๋ฒ์ ์ง์ ํ๋ค
9 : ๋ฐ์ดํฐ์ ์ ์ฒด ๊ธธ์ด๋ฅผ ๋ฐํํ๋ค
12 : index๊ฐ์ ์ฃผ์์ ๋ ๋ฐํ๋๋ ๋ฐ์ดํฐ์ ํํ๋ฅผ ์ ์ํ๋ค
์ฃผ๋ก index ๊ฐ์ ์ธ์๋ก ๋ฐ์ง๋ง ๋ค๋ฅธ ๊ฐ์ ๋ฐ์ ์๋ ์๋ค
๋์ ๋๋ฆฌ ํํ๋ก ๋ฐํํ์ง๋ง ๋ค๋ฅธ ํํ๋ก๋ ๋ฐํํ ์ ์๋ค.
getitem์ ๋์ค์ DataLoader์์ ์ฌ์ฉํ๊ฒ ๋๋ค
๋ฐ์ดํฐ ํํ์ ๋ฐ๋ผ ๊ฐ ํจ์๋ฅผ ๋ค๋ฅด๊ฒ ์ ์ํ๋ค
๋ชจ๋ ๊ฒ์ ๋ฐ์ดํฐ ์์ฑ ์์ ์ ์ฒ๋ฆฌํ ํ์๋ ์๋ค
๋ฐ์ดํฐ ์ ์ ๋ํ ํ์คํ๋ ์ฒ๋ฆฌ๋ฐฉ๋ฒ์ ์ ๊ณตํ ํ์๊ฐ ์๋ค
์ต๊ทผ์๋ HuggingFace๋ฑ์ ํ์คํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ฌ์ฉํ๋ค
Data์ Batch๋ฅผ ์์ฑํด์ฃผ๋ ํด๋์ค
ํ์ต์ง์ ๋ฐ์ดํฐ์ ๋ณํ์ ์ฑ ์
Tensor๋ก ๋ณํ + Bacth ์ฒ๋ฆฌ๊ฐ ๋ฉ์ธ ์ ๋ฌด
๋ณ๋ ฌ์ ์ธ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ์ฝ๋์ ๊ณ ๋ฏผ ํ์