(2강) 대회 및 데이터셋 소개

데이터의 Capacity에 맞는 모델 크기의 중요성과 효율성에 초점을 맞추어 높은 효율의 모델을 찾아내는 것
[Further Reading]
[Paper] ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design

1. 대회 소개

1.1. 대회 목표

경량화를 평가하는 것은 어떤 것에 포커스를 둘지에 따라 달라질 수 있다.

모델 크기(=파라미터 수)가 작으면?
속도가 빠르면?
연산횟수가 작으면?

본 대회에서는 inference 속도를 대회 기준으로 결정한다.
Task는 image Classification

1.3. FLOPs 에 대해서

FLOPs는 모델 최적화, 경량화 논문에서 자주 언급되는 metric으로

연산속도를 가장 중요한 기준으로 볼 때, 연산횟수(FLOPs)는 속도 결정의 간접적인 factor중 하나
어느정도의 경향성을 나타내기는

Memory Access Cost와 같이 다른 중요한 요소들 또한 존재
모델의 구조로 오는 병렬성 등은 고려하지 못함
더해서 HW platform마다 동일 연산 간의 속도 차이도 존재

ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture DesignarXiv.org

FLOPs 이외에 Memory Access Cost 등의 관점에서 속도에 영향을 주는 요소를 추가로 고려
4가지의 가이드 라인을 제시
- 입 출력의 채널 크기가 동일할 때 MAC가 최소
- 큰 Group convolution은 MAC를 증가
- 여러 분기의 path가 나오는 구조는 병렬화에 악영향
- Elment-wise operation은 무시하지 못할 비중을 가짐

ShuffleNet V2라는 논문에서 위와같이 다른 추가적으로 속도에 영향을 주는 요소에 대해 가이드라인을 제시한다.

2. Dataset 소개

2.1. TACO (Trash Annotation in Context Dataset)

TACO: 대회용 데이터셋의 Inference

쓰레기 이미지의 label과 bbox, segmentation이 포함된 open image dataset
COCO format으로 제공됨

국내에서 발생한 총 11개의 category로 분류된 데이터

2.2. Task 소개

Object detection task를 위해 제작된 데이터셋, 하지만 Object detection에 경량화를 적용하는데에 더 많은 시간과 노력이 필요
“경량화”라는 취지에 더욱 집중하기 위해, Bounding box를 crop하여 classification문제로 완화하기로결정
일부 Data를 customizing 하였음(후에설명)

3. EDA 및 데이터셋 생성과정

카테고리별 분포

Battery / Clothing

General trash / Glass

Metal

Paper / Paper pack

Plastic / Plastic bag

Styrofoam

이중 문제가 되는 데이터를 제거
- Overlap 되는 이미지가 다수 존재
  - 두 종류가 함께 나옴
  - General Trash, Battery등 불균형 심한 Class 제거
  - IoU 40% 이상의 Cropped 이미지의 경우 둘 중 큰 이미지는 제거
- Aspect ratio가 지나치게 불균형한 데이터 존재
  - 특정 비율 이상의 심한 Aspect Ratio의 이미지 제 (화면비)

대회 진행과 관련하여 소개위주의 강의 구성!
음.. 오랜만에 CV Task라서 반갑기도한데 낯선 단어들 때문에 조금 걱정이 된다.

Previous(1강) 최적화 소개 및 강의 개요 Next(3강) 작은 모델, 좋은 파라미터 찾기: AutoML 이론

Last updated 4 years ago

hashtag1. 대회 소개

hashtag1.1. 대회 목표

hashtag1.3. FLOPs 에 대해서

hashtag2. Dataset 소개

hashtag2.1. TACO (Trash Annotation in Context Dataset)

hashtagTACO: 대회용 데이터셋의 Inference

hashtag2.2. Task 소개

hashtag3. EDA 및 데이터셋 생성과정

1. 대회 소개

1.1. 대회 목표

1.3. FLOPs 에 대해서

2. Dataset 소개

2.1. TACO (Trash Annotation in Context Dataset)

TACO: 대회용 데이터셋의 Inference

2.2. Task 소개

3. EDA 및 데이터셋 생성과정