(6강) 데이터 구축 작업 설계
Last updated
Last updated
데이터 구축 작업시 고려할 사항들과 프로세스에 대해 알아본다.
데이터 주석 유형들과 특징
데이터 평가의 지표들에 대해 설명
[Further Reading]
Natural language annotation [Book]
Fleiss' Kappa [Paper]
Krippendorff's Alpha [Paper]
인공지능(AI) 학습용 데이터 품질관리 가이드라인 (v1.0)
문장 또는 텍스테에 대한 분류 레이블을 주석하는 유형
감성분석, 주제분류, 자연어추론 등
텍스트의 일부를 선택하여 특정한 레이블을 주석하는 유형 - 개체명, 형태 분석 등
대상간의 관계를 주석하는 유형 - 관계 추출, 개체명 연결, 구문 분석 등
두 단계에 걸쳐 구축해야함 - 개체 표기 + 관계 표기
주어진 텍스트에 대한 텍스트 또는 발화를 생성하는 유형 - 대화문, 번역, 요약 등
앞선 유형들을 복합적으로 활용하여 다양한 정보를 주석하는 유형 - 질의응답, 슬롯필링 대화 등
가이드라인 정합성
각 주석 절차 및 주석내용이 가이드라인에 부합하는지 확인
데이터 형식
메타 정보, 레이블, 텍스트 내용 등의 형식이 맞는지 확인
통계정보
메터 정보 및 레이블의 분포, 문장길이, 단위 별 규모 확인
모델 성능 확인
모델 학습을 통해 결과값 확인
오류 원인 분석
구축 방법 측면의 오류 원인
모델 데이터의 대상 선정, 수집, 정제, 라벨링 등의 통제 미흡으로 인한 구축 절차, 구조, 학습모델 측면의 다양한 오류 데이터 생성
가이드라인 측면의 오류 원인
구축 가이드라인의 불완전성, 미준순로 인한 작업자간의 상이한 작업 결과물
데이터 셋 측면의 오류 원인
데이터 셋 설계의 부족, 구문정확성 위배, 데이터 구축 중복 등
학습 모델 측면의 오류 원인
학습 모델에 적합한 데이터 구축이 수행되지 않았거나, 잘못된 학습모델 선정으로 데이터 구축 방향이 잘못 된 경우
표폰 추출
전수 검사
작업자간 일치도 (IAA, Inter-Annotator Agreement)
모델 평가 (Evaluation)
Accuracy, Precision, Recall, F1
충분한 데이터 구축기간 설정
충분한 검수 진행
검수 내용을 어느 시점에 반영하지에 대한 계획
품질 미달인 경우의 보완책 마련
작업 난이도에 맞는 인력 산정과 모집 및 관리에 대한 고민
작업의 주체를 고려
검수유형을 지정
외부 인력 및 자원을 사용시 비용 산정을 위해 기본 단가 산정 기준을 잘 세울 것.