(7강) 데이터 구축 가이드라인 작성 기초
데이터 구축 프로세스를 조망하고, 가이드라인이 차지하는 위치에 대해 공부합니다.
자연어처리 데이터 구축 가이드라인들의 예시를 알아봅니다.
가이드라인 작성 도구들에 대해 알아봅니다.
[Further Reading]
한국어 학습자 말뭉치 구어 전사 지침 (일부) [Book]
1. 가이드라인의 유형
목적
수집을 위한
주석을 위한
검수를 위한
제시방식
문서형
화면 노출형 / 튜토리얼형
문서형 가이드라인 예
튜토리얼형 가이드라인
2. 가이드라인의 구성요소
데이터 구축 목적 정의 예시
인공지능(AI) 학습용 데이터 품질관리 가이드라인 (v1.0)
데이터 구축 가이드라인 용어 정의
https://alt.qcri.org/semeval2016/task5/data/uploads/absa2016_annotationguidelines.pdf
데이터 수집 가이드 라인 예
https://kcorpus.korean.go.kr/boardFileDownload.data?seq=63
데이터 체계 제시 예시
https://kcorpus.korean.go.kr/boardFileDownload.data?seq=63
https://www.cis.upenn.edu/~bies/manuals/tagguide.pdf
데이터 구축 도구 사용법 예시
https://balsamiq.com/learn/articles/wireframe-annotations/
3. 가이드라인의 버전관리
가이드 라인은 지속적인 구축과 검수를 통해 개정되어야함.
개정 전과 후 어떤 것이 변화하였는지 비교하여 볼 수 있도록 버전 관리가 되어야함
버전별로 작성자, 개정일 등을 기록할 것.
4. 가이드라인 작성 도구
Google Docs
Notion
Word, 한글
기타 도구
5. 가이드라인 작성 시 유의 사항
가이드라인의 유형별 특성을 이해하고 그에 알맞는 정보를 작성한다.
작업자의 작업 이해도를 고려하여 작성한다.
작업자에게 공개해야하는 필수 정보와 부가적인 정보가 무엇인지 사전에 고려한다.
가이드라인 구성 요소의 배치를 어떻게 할 지 고민한다.
작업자의 가독성을 고려한다.
음... 문서의 기본 작성요령과 매우 유사하다고 생각하면 될 것 같다. 매우 당연한 내용들이지만 막상 직접 작성하려면 놓치는 경우가 많은 내용들이라는 생각이든다. 직접 작성하고 사용하면서 부족한 점을 보완해 나갈 수 있도록 해야할 것 같다.
Further Questions
전문가를 위한 가이드라인과 크라우드소싱에 활용되는 가이드라인은 어떤 차이가 있을까요?
크라우드 소싱에 활용되는 가이드라인의 경우 보다 명확한 기준을 세워야 한다.
전문가를 위한 가이드라인의 경우 전문가와 함께 가이드라인을 작성이 필요할 것 같다.
크라우드소싱에 참여하는 주석자들의 배경(e.g., 연령, 전공 등)이 상이할 경우 가이드라인 작성에 있어 예상되는 어려움은 무엇이 있나요?
데이터에 대해 동일한 결과를 내도록 하기가 매우 어렵다.
배경에 따라 다르게 판단할 수 있을 것 같은 부분에 대해서는 추가적인 기준을 부여해야한다.
Last updated