(5강) 작은 모델, 좋은 파라미터 찾기: Data Augmentation & AutoML 결과 분석

Data Augmentation
rand augmentation에 대해서
AutoML파트의 wrap-up으로 쉬운 예제를 활용해서 AutoML이 원하는 모델을 찾아가는 흐름에 대해 실험
[Further Reading]
Automl 리포트 예시 [Paper]
AutoAugment: Learning Augmentation Policies from Data
[Paper] RandAugment: Practical automated data augmentation with a reduced search space

1. Introduction

1.1. Augmentation이란?

부족한 데이터를 추가로 생성하기 위한 증강 방법. 이미지의 경우 좌우반전, 회전 등을 활용해서 증강할 수 있으며, NLP 측면에서는 EDA, AEDA 등의 방법으로 데이터 증강을 할 수 있다.

데이터 증강을 통해 얻을 수 있는 효과는 imbalance된 데이터 셋이나 적은 양의 데이터 셋에 활용할 수 있다는 것이 있습니다.

AutoML에서의 Augmentation이란?

경량화 관점에서는 연결되진 않지만, 성능향상에 필수적인 요소이다 보니 해당 강의에 추가되었다. 또한 Augmentation 기법을 하나의 AutoML의 Parameter로 사용될 수 있다.

경량화 측면에서 핵심적인 내용은 아니지만, 성능향상에 주요 기술이라고 한다. 각각의 Augmentation기법과 관련해서는 이미 이미지 분류 강의에서 배웠으니 간단하게 넘어가기로 한다.
그 동안 프로젝트를 진행하면서 Augmentation이 그렇게 크게 성능향상을 주진 못했었는데... 데이터 양이 한정되어서이지 않을까 싶다.

2. Image Augmentation

2.1. 어떤 Task에 어떤 Augmentation을 적용해야할까?

예를 들어 숫자 인식 데이터 (MNIST) 같은 경우 회전을 시킨다면, 6과 9를 구분할 수 없을 것이다! 이처럼 데이터에 적합한 Augmentation을 하기 위해 AutoAugment가 생겨났다.

AutoAugment: AutoML로 augmentation policy를 찾자

AutoAugment: Learning Augmentation Policies from Data

데이터의 특징을 잘 나타내는 policy를 찾는것을 목표로 한다.
총 5개의 sub policy, 각 sub policy는 2개의 augmentation type, 각 probability와 magnitude를 가진다.
- 2개의 augmentation 조합을 찾고 각각에 대해서 이를 적용할지 여부에 대한 확률과 magnitude 값을 구한다.