(4강) 자연어처리 데이터 소개 2

[Further Reading]
Hugging Face Dataset Hub [Site]
Papers with Code - NLP section [Site]

1. 질의응답 Question Answering

위키피디아 데이터를 기반으로 제작한 기계 독해 및 질의응답 데이터

크라우드 소싱 플랫폼을 통한 대답하기 어려운 질문 수집 - UnAnswerable question을 추가함
각 문단마다 각 문단만으로는 대답할 수 없는 다섯 개의 질문 생성
적합한 질문을 25개 이하로 남김
적합한 질문이 수집되지 않은 기사 삭제
학습, 검증, 평가용 데이터 분할

추상 요약 말뭉치.
기사에 대해 사람이 직접 작성한 요약문이 Paired 됨
학습데이터 286,817쌍 / 검증데이터 13,368쌍 / 평가데이터 11,487쌍 으로 구성
https://github.com/abisee/cnn-dailymail

DSTC1
human-computer dialogs in the bus timetable domain
DSTC2 & DSTC3
human-computer dialogs in the restaurant information domain
DSTC4 & DSTC5
DSTC4 human-human dialogs in the tourist information domain
DSTC6 이후
End-to-End Goal Oriented Dialog Learning, End-to-End Conversation Modeling, andDialogue Breakdown Detection로 확장

WoZ 방식으로 수집된 데이터셋이며 대화 상태 추적 데이터와 유사한 형태로 이루어짐

WoZ방식이란, 대화 수집 방식의 하나로, 참여자가 대화 시스템을 통해 대화를 하고 있다고 생각하게 한뒤 실제로는 실제 사람이 참여자의 발화에 맞추어 응답을 제시하고 대화를 이끌어내면서 데이터를 수집하는 방식

우분투 플랫폼 포럼의 대화를 수집한 데이터

대화 상태 추적과 블로그 등에서 보이는 비구조적 상호작용의 특성을 모두 가지고 있음

Last updated 3 years ago

Was this helpful?