(3강) 자연어처리 데이터 소개 1
국내의 자연어처리 데이터 제작 흐름에 대해 알아보자
다양한 자연어 처리 데이터의 유형을 알아본다
[Further Reading]
Open Korean Corpora [Paper]
1. 국내 언어 데이터의 구축 프로젝트
모두의 말뭉치(국립국어원): AI-hub, NIA
KLUE(Upstage): KorQuAD(LG CNS), KorNLU(kakaobrain)
1.1. 21세기 세종 계획과 모두의 말뭉치
21세기 세종계획
1997년 계획, 1998 ~ 2007년 10년간 구축
약 2억어절의 자료 구축
공개 XML 형식
언어정보 나눔터 누리집을 통해 배포하다 중단후 DVD로만 배포
Mecap, Khaii, 꼬마, 한나눔, 코모란 등에서 세종형태 분석 태그표를 채택함
https://docs.google.com/spreadsheets/d/1OGAjUvalBuX-oZvZ_-9tEfYD2gQe7hTGsgUpiiBSXI8/edit?usp=sharing
모두의 말뭉치
인공지능의 한국어 처리능력향상에 필수적인 한국어 학습자료 공개 플랫폼
'21세기 세종계획'보다 일상대화, 메신저, 웹문서등 구어체 자료의 비중을 높임
다층위 주석 말뭉치 포함(형태, 구문, 어휘의미, 의미역, 개체명, 상호참조 등)
JSON 형식
https://corpus.korean.go.kr/
위 두가지 모두 학습, 검증, 평가용이 나누어져있지 않아 직접 나눠서 사용하여야한다.
1.2. 엑소브레인
엑소브레인(ExoBrain): 내 몸 바깥에 있는 인공 두뇌
인간의 지적 노동을 보조할 수 있는 언어처리 분야의 AI 기술개발을 위함
전문직 종사자, 금융, 법률, 또는 특허 등)의 조사, 분석 등의 지식노동을 보조 가능한
언어 문법 분석을 넘어선 언어의 의미추론 기술개발
전문분야 원인, 절차, 상관관계 등 고차원 지식학습 및 축적 기술 개발
전문 문야 대상 인간과 기계의 연속적인 문답을 통한 심층질의 응답 기술 개발 및 국내외 표준화를 통해 핵심 IPR을 확보하는 프로젝트
ERTI의 오픈 AI API, Data 서비스 누리집에서 데이터셋 배포
1.3. AI 허브
AI 기술 및 제품 서비스 개발에 필요한 AI 인프라를 지원함. 누구나 활용하고 참여가능한 AI 통합플랫폼
1.4. KLUE
한국어 이해 능력 평가를 위한 벤치마크
KLUE1.5. KorQuAD 1.0 & 2.0
1.6. KorNLU
영어로 된 자연어 추론 및 문장의미 유사도 데이터셋을 기계 번역하여 공개
Further Questions
형태소 분석, 의존구문 분석 등을 위한 코퍼스와, 감정 분석, 유사도 분석 등을 위한 코퍼스는 어떤 경향의 차이를 보일까요?
KLUE, KorQuAD와 같은 벤치마크에서 보완할 수 있는 점은 무엇이 있을까요?
데이터셋을 제작하는 데 있어 한국어 데이터 수집의 예상되는 어려운점은 무엇이 있나요?
Last updated