(6강) 데이터 구축 작업 설계

  • 데이터 구축 작업시 고려할 사항들과 프로세스에 대해 알아본다.

  • 데이터 주석 유형들과 특징

  • 데이터 평가의 지표들에 대해 설명

[Further Reading]

1. 데이터 구축 프로세스

인공지능 (AI) 학습용 데이터셋 구축 안내서

인공지능(AI) 학습용 데이터 품질관리 가이드라인 (v1.0)

2. 데이터 주석

2.1. 분류

  • 문장 또는 텍스테에 대한 분류 레이블을 주석하는 유형

    • 감성분석, 주제분류, 자연어추론 등

2.2. 특정 범위 (span) 주석 - NER

텍스트의 일부를 선택하여 특정한 레이블을 주석하는 유형 - 개체명, 형태 분석 등

2.3. 대상 간 관계 주석 - 개체명 연결✔

대상간의 관계를 주석하는 유형 - 관계 추출, 개체명 연결, 구문 분석 등

두 단계에 걸쳐 구축해야함 - 개체 표기 + 관계 표기

2.4. 텍스트 생성 - 번역

주어진 텍스트에 대한 텍스트 또는 발화를 생성하는 유형 - 대화문, 번역, 요약 등

2.5. 그 외 - 복합유형

앞선 유형들을 복합적으로 활용하여 다양한 정보를 주석하는 유형 - 질의응답, 슬롯필링 대화 등

3. 데이터 검수

  • 가이드라인 정합성

    각 주석 절차 및 주석내용이 가이드라인에 부합하는지 확인

  • 데이터 형식

    메타 정보, 레이블, 텍스트 내용 등의 형식이 맞는지 확인

  • 통계정보

    메터 정보 및 레이블의 분포, 문장길이, 단위 별 규모 확인

  • 모델 성능 확인

    모델 학습을 통해 결과값 확인

  • 오류 원인 분석

    • 구축 방법 측면의 오류 원인

      모델 데이터의 대상 선정, 수집, 정제, 라벨링 등의 통제 미흡으로 인한 구축 절차, 구조, 학습모델 측면의 다양한 오류 데이터 생성

    • 가이드라인 측면의 오류 원인

      구축 가이드라인의 불완전성, 미준순로 인한 작업자간의 상이한 작업 결과물

    • 데이터 셋 측면의 오류 원인

      데이터 셋 설계의 부족, 구문정확성 위배, 데이터 구축 중복 등

    • 학습 모델 측면의 오류 원인

      학습 모델에 적합한 데이터 구축이 수행되지 않았거나, 잘못된 학습모델 선정으로 데이터 구축 방향이 잘못 된 경우

3.1. 검수 유형

  • 표폰 추출

  • 전수 검사

  • 작업자간 일치도 (IAA, Inter-Annotator Agreement)

  • 모델 평가 (Evaluation)

    • Accuracy, Precision, Recall, F1

4. 데이터 구축 프로세스 설계 시 유의사항

  • 충분한 데이터 구축기간 설정

  • 충분한 검수 진행

  • 검수 내용을 어느 시점에 반영하지에 대한 계획

  • 품질 미달인 경우의 보완책 마련

  • 작업 난이도에 맞는 인력 산정과 모집 및 관리에 대한 고민

  • 작업의 주체를 고려

  • 검수유형을 지정

  • 외부 인력 및 자원을 사용시 비용 산정을 위해 기본 단가 산정 기준을 잘 세울 것.

https://bit.ly/3aOw9Wg

Last updated