(6강) 데이터 구축 작업 설계
데이터 구축 작업시 고려할 사항들과 프로세스에 대해 알아본다.
데이터 주석 유형들과 특징
데이터 평가의 지표들에 대해 설명
[Further Reading]
Natural language annotation [Book]
Fleiss' Kappa [Paper]
Krippendorff's Alpha [Paper]
1. 데이터 구축 프로세스


인공지능(AI) 학습용 데이터 품질관리 가이드라인 (v1.0)

2. 데이터 주석
2.1. 분류
- 문장 또는 텍스테에 대한 분류 레이블을 주석하는 유형 - 감성분석, 주제분류, 자연어추론 등 
 
2.2. 특정 범위 (span) 주석 - NER
텍스트의 일부를 선택하여 특정한 레이블을 주석하는 유형 - 개체명, 형태 분석 등
2.3. 대상 간 관계 주석 - 개체명 연결✔
대상간의 관계를 주석하는 유형 - 관계 추출, 개체명 연결, 구문 분석 등
두 단계에 걸쳐 구축해야함 - 개체 표기 + 관계 표기

2.4. 텍스트 생성 - 번역
주어진 텍스트에 대한 텍스트 또는 발화를 생성하는 유형 - 대화문, 번역, 요약 등
2.5. 그 외 - 복합유형
앞선 유형들을 복합적으로 활용하여 다양한 정보를 주석하는 유형 - 질의응답, 슬롯필링 대화 등
3. 데이터 검수
- 가이드라인 정합성 - 각 주석 절차 및 주석내용이 가이드라인에 부합하는지 확인 
- 데이터 형식 - 메타 정보, 레이블, 텍스트 내용 등의 형식이 맞는지 확인 
- 통계정보 - 메터 정보 및 레이블의 분포, 문장길이, 단위 별 규모 확인 
- 모델 성능 확인 - 모델 학습을 통해 결과값 확인 
- 오류 원인 분석 - 구축 방법 측면의 오류 원인 - 모델 데이터의 대상 선정, 수집, 정제, 라벨링 등의 통제 미흡으로 인한 구축 절차, 구조, 학습모델 측면의 다양한 오류 데이터 생성 
- 가이드라인 측면의 오류 원인 - 구축 가이드라인의 불완전성, 미준순로 인한 작업자간의 상이한 작업 결과물 
- 데이터 셋 측면의 오류 원인 - 데이터 셋 설계의 부족, 구문정확성 위배, 데이터 구축 중복 등 
- 학습 모델 측면의 오류 원인 - 학습 모델에 적합한 데이터 구축이 수행되지 않았거나, 잘못된 학습모델 선정으로 데이터 구축 방향이 잘못 된 경우 
 
3.1. 검수 유형
- 표폰 추출 
- 전수 검사 
- 작업자간 일치도 (IAA, Inter-Annotator Agreement) 
- 모델 평가 (Evaluation) - Accuracy, Precision, Recall, F1 
 
4. 데이터 구축 프로세스 설계 시 유의사항
- 충분한 데이터 구축기간 설정 
- 충분한 검수 진행 
- 검수 내용을 어느 시점에 반영하지에 대한 계획 
- 품질 미달인 경우의 보완책 마련 
- 작업 난이도에 맞는 인력 산정과 모집 및 관리에 대한 고민 
- 작업의 주체를 고려 
- 검수유형을 지정 
- 외부 인력 및 자원을 사용시 비용 산정을 위해 기본 단가 산정 기준을 잘 세울 것. 
Last updated
Was this helpful?

