(6강) 데이터 구축 작업 설계

데이터 구축 작업시 고려할 사항들과 프로세스에 대해 알아본다.
데이터 주석 유형들과 특징
데이터 평가의 지표들에 대해 설명
[Further Reading]
Natural language annotation [Book]
Natural language annotation - Short version [Slide]
Fleiss' Kappa [Paper]
Krippendorff's Alpha [Paper]

1. 데이터 구축 프로세스

인공지능 (AI) 학습용 데이터셋 구축 안내서

인공지능(AI) 학습용 데이터 품질관리 가이드라인 (v1.0)

2. 데이터 주석

2.1. 분류

문장 또는 텍스테에 대한 분류 레이블을 주석하는 유형
- 감성분석, 주제분류, 자연어추론 등

2.2. 특정 범위 (span) 주석 - NER

텍스트의 일부를 선택하여 특정한 레이블을 주석하는 유형 - 개체명, 형태 분석 등

2.3. 대상 간 관계 주석 - 개체명 연결✔

대상간의 관계를 주석하는 유형 - 관계 추출, 개체명 연결, 구문 분석 등

두 단계에 걸쳐 구축해야함 - 개체 표기 + 관계 표기

2.4. 텍스트 생성 - 번역

주어진 텍스트에 대한 텍스트 또는 발화를 생성하는 유형 - 대화문, 번역, 요약 등

2.5. 그 외 - 복합유형

앞선 유형들을 복합적으로 활용하여 다양한 정보를 주석하는 유형 - 질의응답, 슬롯필링 대화 등

3. 데이터 검수

가이드라인 정합성
각 주석 절차 및 주석내용이 가이드라인에 부합하는지 확인
데이터 형식
메타 정보, 레이블, 텍스트 내용 등의 형식이 맞는지 확인
통계정보
메터 정보 및 레이블의 분포, 문장길이, 단위 별 규모 확인
모델 성능 확인
모델 학습을 통해 결과값 확인
오류 원인 분석
- 구축 방법 측면의 오류 원인
  모델 데이터의 대상 선정, 수집, 정제, 라벨링 등의 통제 미흡으로 인한 구축 절차, 구조, 학습모델 측면의 다양한 오류 데이터 생성
- 가이드라인 측면의 오류 원인
  구축 가이드라인의 불완전성, 미준순로 인한 작업자간의 상이한 작업 결과물
- 데이터 셋 측면의 오류 원인
  데이터 셋 설계의 부족, 구문정확성 위배, 데이터 구축 중복 등
- 학습 모델 측면의 오류 원인
  학습 모델에 적합한 데이터 구축이 수행되지 않았거나, 잘못된 학습모델 선정으로 데이터 구축 방향이 잘못 된 경우

3.1. 검수 유형

표폰 추출
전수 검사
작업자간 일치도 (IAA, Inter-Annotator Agreement)
모델 평가 (Evaluation)
- Accuracy, Precision, Recall, F1

4. 데이터 구축 프로세스 설계 시 유의사항

충분한 데이터 구축기간 설정
충분한 검수 진행
검수 내용을 어느 시점에 반영하지에 대한 계획
품질 미달인 경우의 보완책 마련
작업 난이도에 맞는 인력 산정과 모집 및 관리에 대한 고민
작업의 주체를 고려
검수유형을 지정
외부 인력 및 자원을 사용시 비용 산정을 위해 기본 단가 산정 기준을 잘 세울 것.

https://bit.ly/3aOw9Wg

Previous오피스아워 (11.10, 수)Next(7강) 데이터 구축 가이드라인 작성 기초

Last updated 4 years ago

hashtag1. 데이터 구축 프로세스

hashtag2. 데이터 주석

hashtag2.1. 분류

hashtag2.2. 특정 범위 (span) 주석 - NER

hashtag2.3. 대상 간 관계 주석 - 개체명 연결✔

hashtag2.4. 텍스트 생성 - 번역

hashtag2.5. 그 외 - 복합유형

hashtag3. 데이터 검수

hashtag3.1. 검수 유형

hashtag4. 데이터 구축 프로세스 설계 시 유의사항