(2강) 대회 및 데이터셋 소개

  • 데이터의 Capacity에 맞는 모델 크기의 중요성과 효율성에 초점을 맞추어 높은 효율의 모델을 찾아내는 것

[Further Reading]

1. 대회 소개

1.1. 대회 목표

경량화를 평가하는 것은 어떤 것에 포커스를 둘지에 따라 달라질 수 있다.

  • 모델 크기(=파라미터 수)가 작으면?

  • 속도가 빠르면?

  • 연산횟수가 작으면?

  • 본 대회에서는 inference 속도를 대회 기준으로 결정한다.

  • Task는 image Classification

1.3. FLOPs 에 대해서

FLOPs는 모델 최적화, 경량화 논문에서 자주 언급되는 metric으로

  • 연산속도를 가장 중요한 기준으로 볼 때, 연산횟수(FLOPs)는 속도 결정의 간접적인 factor중 하나

  • 어느정도의 경향성을 나타내기는

  • Memory Access Cost와 같이 다른 중요한 요소들 또한 존재

  • 모델의 구조로 오는 병렬성 등은 고려하지 못함

  • 더해서 HW platform마다 동일 연산 간의 속도 차이도 존재

  • FLOPs 이외에 Memory Access Cost 등의 관점에서 속도에 영향을 주는 요소를 추가로 고려

  • 4가지의 가이드 라인을 제시

    • 입 출력의 채널 크기가 동일할 때 MAC가 최소

    • 큰 Group convolution은 MAC를 증가

    • 여러 분기의 path가 나오는 구조는 병렬화에 악영향

    • Elment-wise operation은 무시하지 못할 비중을 가짐

ShuffleNet V2라는 논문에서 위와같이 다른 추가적으로 속도에 영향을 주는 요소에 대해 가이드라인을 제시한다.

2. Dataset 소개

2.1. TACO (Trash Annotation in Context Dataset)

TACO: 대회용 데이터셋의 Inference

  • 쓰레기 이미지의 label과 bbox, segmentation이 포함된 open image dataset

  • COCO format으로 제공됨

  • 국내에서 발생한 총 11개의 category로 분류된 데이터

2.2. Task 소개

  • Object detection task를 위해 제작된 데이터셋, 하지만 Object detection에 경량화를 적용하는데에 더 많은 시간과 노력이 필요

  • “경량화”라는 취지에 더욱 집중하기 위해, Bounding box를 crop하여 classification문제로 완화하기로결정

  • 일부 Data를 customizing 하였음(후에설명)

3. EDA 및 데이터셋 생성과정

  • 카테고리별 분포

Battery / Clothing

General trash / Glass

Metal

Paper / Paper pack

Plastic / Plastic bag

Styrofoam

  • 이중 문제가 되는 데이터를 제거

    • Overlap 되는 이미지가 다수 존재

      • 두 종류가 함께 나옴

      • General Trash, Battery등 불균형 심한 Class 제거

      • IoU 40% 이상의 Cropped 이미지의 경우 둘 중 큰 이미지는 제거

    • Aspect ratio가 지나치게 불균형한 데이터 존재

      • 특정 비율 이상의 심한 Aspect Ratio의 이미지 제 (화면비)

대회 진행과 관련하여 소개위주의 강의 구성!

음.. 오랜만에 CV Task라서 반갑기도한데 낯선 단어들 때문에 조금 걱정이 된다.

Last updated