(4강) 자연어처리 데이터 소개 2
Last updated
Last updated
[Further Reading]
Hugging Face Dataset Hub [Site]
위키피디아 데이터를 기반으로 제작한 기계 독해 및 질의응답 데이터
https://arxiv.org/pdf/1606.05250.pdf
구축 대상 기사 추출
위키피디아 상위 10,000 기사 중 500자 이하인 536 기사 무작위 추출
크라우드 소싱을 통한 질의 응답 수집
각 문단마다 다섯 개의 질문과 답변 수집
추가 응답 수집
평가를 통해서 각 질문 당 최소 두개의 추가적인 답변 수집.
기사의 단락과 질문 노출 후 가장 짧은 대답 선택
https://arxiv.org/abs/1806.03822
크라우드 소싱 플랫폼을 통한 대답하기 어려운 질문 수집 - UnAnswerable question을 추가함
각 문단마다 각 문단만으로는 대답할 수 없는 다섯 개의 질문 생성
적합한 질문을 25개 이하로 남김
적합한 질문이 수집되지 않은 기사 삭제
학습, 검증, 평가용 데이터 분할
2014년부터 시행된 기계 번역학회에서 공개한 데이터셋 다국어 번역 데이터.
두언어간의 말뭉치로 구성되어있음.
뉴스, 바이오, 멀티 모달데이터 등이 제공됨.
추상 요약 말뭉치.
기사에 대해 사람이 직접 작성한 요약문이 Paired 됨
학습데이터 286,817쌍 / 검증데이터 13,368쌍 / 평가데이터 11,487쌍 으로 구성
DSTC1
human-computer dialogs in the bus timetable domain
DSTC2 & DSTC3
human-computer dialogs in the restaurant information domain
DSTC4 & DSTC5
DSTC4 human-human dialogs in the tourist information domain
DSTC6 이후
End-to-End Goal Oriented Dialog Learning, End-to-End Conversation Modeling, andDialogue Breakdown Detection로 확장
WoZ 방식으로 수집된 데이터셋이며 대화 상태 추적 데이터와 유사한 형태로 이루어짐
WoZ방식이란, 대화 수집 방식의 하나로, 참여자가 대화 시스템을 통해 대화를 하고 있다고 생각하게 한뒤 실제로는 실제 사람이 참여자의 발화에 맞추어 응답을 제시하고 대화를 이끌어내면서 데이터를 수집하는 방식
https://huggingface.co/datasets/woz_dialogue
우분투 플랫폼 포럼의 대화를 수집한 데이터
100만개의 멀티 턴 대화로 구성
700만개 이상의 발화와 1억개 이상의 단어가 포함
특별히 레이블이 주석되지 않음
대화 상태 추적과 블로그 등에서 보이는 비구조적 상호작용의 특성을 모두 가지고 있음
https://arxiv.org/pdf/1506.08909v3.pdf
작업자가 적극적이고, 구체적인 작업을 할 수 있도록 가이드라인을 잘 잡아주어야한다.
각 Task에 알맞도록 데이터를 구축해야한다.