(2강) 대회 및 데이터셋 소개
Last updated
Last updated
데이터의 Capacity에 맞는 모델 크기의 중요성과 효율성에 초점을 맞추어 높은 효율의 모델을 찾아내는 것
[Further Reading]
경량화를 평가하는 것은 어떤 것에 포커스를 둘지에 따라 달라질 수 있다.
모델 크기(=파라미터 수)가 작으면?
속도가 빠르면?
연산횟수가 작으면?
본 대회에서는 inference 속도를 대회 기준으로 결정한다.
Task는 image Classification
FLOPs는 모델 최적화, 경량화 논문에서 자주 언급되는 metric으로
연산속도를 가장 중요한 기준으로 볼 때, 연산횟수(FLOPs)는 속도 결정의 간접적인 factor중 하나
어느정도의 경향성을 나타내기는
Memory Access Cost와 같이 다른 중요한 요소들 또한 존재
모델의 구조로 오는 병렬성 등은 고려하지 못함
더해서 HW platform마다 동일 연산 간의 속도 차이도 존재
FLOPs 이외에 Memory Access Cost 등의 관점에서 속도에 영향을 주는 요소를 추가로 고려
4가지의 가이드 라인을 제시
입 출력의 채널 크기가 동일할 때 MAC가 최소
큰 Group convolution은 MAC를 증가
여러 분기의 path가 나오는 구조는 병렬화에 악영향
Elment-wise operation은 무시하지 못할 비중을 가짐
ShuffleNet V2라는 논문에서 위와같이 다른 추가적으로 속도에 영향을 주는 요소에 대해 가이드라인을 제시한다.
쓰레기 이미지의 label과 bbox, segmentation이 포함된 open image dataset
COCO format으로 제공됨
국내에서 발생한 총 11개의 category로 분류된 데이터
Object detection task를 위해 제작된 데이터셋, 하지만 Object detection에 경량화를 적용하는데에 더 많은 시간과 노력이 필요
“경량화”라는 취지에 더욱 집중하기 위해, Bounding box를 crop하여 classification문제로 완화하기로결정
일부 Data를 customizing 하였음(후에설명)
카테고리별 분포
Battery / Clothing
General trash / Glass
Metal
Paper / Paper pack
Plastic / Plastic bag
Styrofoam
이중 문제가 되는 데이터를 제거
Overlap 되는 이미지가 다수 존재
두 종류가 함께 나옴
General Trash, Battery등 불균형 심한 Class 제거
IoU 40% 이상의 Cropped 이미지의 경우 둘 중 큰 이미지는 제거
Aspect ratio가 지나치게 불균형한 데이터 존재
특정 비율 이상의 심한 Aspect Ratio의 이미지 제 (화면비)
대회 진행과 관련하여 소개위주의 강의 구성!
음.. 오랜만에 CV Task라서 반갑기도한데 낯선 단어들 때문에 조금 걱정이 된다.