(3강) Dataset

210824

Pre-processing

디스크에 저장된 데이터는 바닐라 데이터이다. 모델에 쓰기에는 어려움이 있다는 뜻이다. 그래서 바닐라 데이터를 데이터셋으로 변환해보는 작업을 거쳐야 한다.

보통의 경진대회는 데이터셋이 잘 갖추어져 있기 때문에 전처리에 많은 시간을 쏟지는 않지만, 대부분의 현업에서는 전처리에 상당히 많은 시간을 쏟게된다.

Bounding box

이미지는 필요 이상으로 많은 정보를 가지고 있기 때문에 바운딩박스만큼의 타켓 이미지만을 학습할 수도 있다.

Resize

계산의 효율을 위해서 적당한 크기로 사이즈를 변경할 수 있다. 이미지 사이즈가 굉장히 다양하기 때문에 통일성을 위함도 있다.

데이터는 도메인에 따라 처리할 것이 정말 많다. 이미지마다 색상이나 채도를 조절할 수도 있다. 텍스트는 특히 더 많다.

Generalization

오버피팅을 피할 수 있는 방법 중 데이터를 만지는 방법을 알아볼 것

Train / Validation

훈련 셋 중 일정 부분을 따로 분리해서 검증 셋으로 활용한다. 훈련 셋의 크기가 줄어들으므로 언더피팅 된다고 말할 수도 있다. 그러나 검증 셋이 있어야 학습에 이용하지 않은 분포가 필요하고, 현재 모델이 얼마나 일반화될 수 있는지 확인해야 할 필요성이 있다.

Data Augmentation

torchvision.transforms 을 사용해서 변환할 수 있다.

Albumentations

transforms 보다 더 다양하고 빠르다.

그러나, 중요한 점은 이런 기법들이 항상 좋은 결과를 가져다 주지는 않는다는 것이다. 이러한 함수들은 여러가지 도구 가운데 하나일 뿐이다. 항상 성능을 높여주는 마스터키는 없으며, 성능의 향상은 실험으로 증명해야 한다.

Last updated

Was this helpful?