(7강) 데이터 구축 가이드라인 작성 기초

  • 데이터 구축 프로세스를 조망하고, 가이드라인이 차지하는 위치에 대해 공부합니다.

  • 자연어처리 데이터 구축 가이드라인들의 예시를 알아봅니다.

  • 가이드라인 작성 도구들에 대해 알아봅니다.

[Further Reading]

1. 가이드라인의 유형

  • 목적

    • 수집을 위한

    • 주석을 위한

    • 검수를 위한

  • 제시방식

    • 문서형

    • 화면 노출형 / 튜토리얼형

문서형 가이드라인 예

튜토리얼형 가이드라인

2. 가이드라인의 구성요소

데이터 구축 목적 정의 예시

인공지능 (AI) 학습용 데이터셋 구축 안내서

인공지능(AI) 학습용 데이터 품질관리 가이드라인 (v1.0)

데이터 구축 가이드라인 용어 정의

https://alt.qcri.org/semeval2016/task5/data/uploads/absa2016_annotationguidelines.pdf

데이터 수집 가이드 라인 예

https://kcorpus.korean.go.kr/boardFileDownload.data?seq=63

데이터 체계 제시 예시

https://kcorpus.korean.go.kr/boardFileDownload.data?seq=63

https://www.cis.upenn.edu/~bies/manuals/tagguide.pdf

데이터 구축 도구 사용법 예시

https://balsamiq.com/learn/articles/wireframe-annotations/

3. 가이드라인의 버전관리

  • 가이드 라인은 지속적인 구축과 검수를 통해 개정되어야함.

  • 개정 전과 후 어떤 것이 변화하였는지 비교하여 볼 수 있도록 버전 관리가 되어야함

  • 버전별로 작성자, 개정일 등을 기록할 것.

4. 가이드라인 작성 도구

Google Docs

Notion

Word, 한글

기타 도구

5. 가이드라인 작성 시 유의 사항

  • 가이드라인의 유형별 특성을 이해하고 그에 알맞는 정보를 작성한다.

  • 작업자의 작업 이해도를 고려하여 작성한다.

  • 작업자에게 공개해야하는 필수 정보와 부가적인 정보가 무엇인지 사전에 고려한다.

  • 가이드라인 구성 요소의 배치를 어떻게 할 지 고민한다.

  • 작업자의 가독성을 고려한다.

음... 문서의 기본 작성요령과 매우 유사하다고 생각하면 될 것 같다. 매우 당연한 내용들이지만 막상 직접 작성하려면 놓치는 경우가 많은 내용들이라는 생각이든다. 직접 작성하고 사용하면서 부족한 점을 보완해 나갈 수 있도록 해야할 것 같다.

Further Questions

  • 전문가를 위한 가이드라인과 크라우드소싱에 활용되는 가이드라인은 어떤 차이가 있을까요?

    • 크라우드 소싱에 활용되는 가이드라인의 경우 보다 명확한 기준을 세워야 한다.

    • 전문가를 위한 가이드라인의 경우 전문가와 함께 가이드라인을 작성이 필요할 것 같다.

  • 크라우드소싱에 참여하는 주석자들의 배경(e.g., 연령, 전공 등)이 상이할 경우 가이드라인 작성에 있어 예상되는 어려움은 무엇이 있나요?

    • 데이터에 대해 동일한 결과를 내도록 하기가 매우 어렵다.

    • 배경에 따라 다르게 판단할 수 있을 것 같은 부분에 대해서는 추가적인 기준을 부여해야한다.

Last updated