(3강) 자연어처리 데이터 소개 1
국내의 자연어처리 데이터 제작 흐름에 대해 알아보자
다양한 자연어 처리 데이터의 유형을 알아본다
[Further Reading]
Open Korean Corpora [Paper]
1. 국내 언어 데이터의 구축 프로젝트
- 모두의 말뭉치(국립국어원): AI-hub, NIA 
- KLUE(Upstage): KorQuAD(LG CNS), KorNLU(kakaobrain) 
1.1. 21세기 세종 계획과 모두의 말뭉치
21세기 세종계획
- 1997년 계획, 1998 ~ 2007년 10년간 구축 
- 약 2억어절의 자료 구축 
- 공개 XML 형식 
- 언어정보 나눔터 누리집을 통해 배포하다 중단후 DVD로만 배포 
- Mecap, Khaii, 꼬마, 한나눔, 코모란 등에서 세종형태 분석 태그표를 채택함 - https://docs.google.com/spreadsheets/d/1OGAjUvalBuX-oZvZ_-9tEfYD2gQe7hTGsgUpiiBSXI8/edit?usp=sharing 
모두의 말뭉치
- 인공지능의 한국어 처리능력향상에 필수적인 한국어 학습자료 공개 플랫폼 
- '21세기 세종계획'보다 일상대화, 메신저, 웹문서등 구어체 자료의 비중을 높임 
- 다층위 주석 말뭉치 포함(형태, 구문, 어휘의미, 의미역, 개체명, 상호참조 등) 
- JSON 형식 
- https://corpus.korean.go.kr/ 
위 두가지 모두 학습, 검증, 평가용이 나누어져있지 않아 직접 나눠서 사용하여야한다.
1.2. 엑소브레인
엑소브레인(ExoBrain): 내 몸 바깥에 있는 인공 두뇌
- 인간의 지적 노동을 보조할 수 있는 언어처리 분야의 AI 기술개발을 위함 
- 전문직 종사자, 금융, 법률, 또는 특허 등)의 조사, 분석 등의 지식노동을 보조 가능한 - 언어 문법 분석을 넘어선 언어의 의미추론 기술개발 
- 전문분야 원인, 절차, 상관관계 등 고차원 지식학습 및 축적 기술 개발 
- 전문 문야 대상 인간과 기계의 연속적인 문답을 통한 심층질의 응답 기술 개발 및 국내외 표준화를 통해 핵심 IPR을 확보하는 프로젝트 
 
- ERTI의 오픈 AI API, Data 서비스 누리집에서 데이터셋 배포 
1.3. AI 허브
AI 기술 및 제품 서비스 개발에 필요한 AI 인프라를 지원함. 누구나 활용하고 참여가능한 AI 통합플랫폼
1.4. KLUE
한국어 이해 능력 평가를 위한 벤치마크
KLUE1.5. KorQuAD 1.0 & 2.0
1.6. KorNLU
영어로 된 자연어 추론 및 문장의미 유사도 데이터셋을 기계 번역하여 공개
Further Questions
- 형태소 분석, 의존구문 분석 등을 위한 코퍼스와, 감정 분석, 유사도 분석 등을 위한 코퍼스는 어떤 경향의 차이를 보일까요? 
- KLUE, KorQuAD와 같은 벤치마크에서 보완할 수 있는 점은 무엇이 있을까요? 
- 데이터셋을 제작하는 데 있어 한국어 데이터 수집의 예상되는 어려운점은 무엇이 있나요? 
Last updated
Was this helpful?
