(3강) 자연어처리 데이터 소개 1

  • 국내의 자연어처리 데이터 제작 흐름에 대해 알아보자

  • 다양한 자연어 처리 데이터의 유형을 알아본다

[Further Reading]

1. 국내 언어 데이터의 구축 프로젝트

  • 모두의 말뭉치(국립국어원): AI-hub, NIA

  • KLUE(Upstage): KorQuAD(LG CNS), KorNLU(kakaobrain)

1.1. 21세기 세종 계획과 모두의 말뭉치

21세기 세종계획

모두의 말뭉치

  • 인공지능의 한국어 처리능력향상에 필수적인 한국어 학습자료 공개 플랫폼

  • '21세기 세종계획'보다 일상대화, 메신저, 웹문서등 구어체 자료의 비중을 높임

  • 다층위 주석 말뭉치 포함(형태, 구문, 어휘의미, 의미역, 개체명, 상호참조 등)

  • JSON 형식

  • https://corpus.korean.go.kr/

위 두가지 모두 학습, 검증, 평가용이 나누어져있지 않아 직접 나눠서 사용하여야한다.

1.2. 엑소브레인

엑소브레인(ExoBrain): 내 몸 바깥에 있는 인공 두뇌

  • 인간의 지적 노동을 보조할 수 있는 언어처리 분야의 AI 기술개발을 위함

  • 전문직 종사자, 금융, 법률, 또는 특허 등)의 조사, 분석 등의 지식노동을 보조 가능한

    • 언어 문법 분석을 넘어선 언어의 의미추론 기술개발

    • 전문분야 원인, 절차, 상관관계 등 고차원 지식학습 및 축적 기술 개발

    • 전문 문야 대상 인간과 기계의 연속적인 문답을 통한 심층질의 응답 기술 개발 및 국내외 표준화를 통해 핵심 IPR을 확보하는 프로젝트

  • ERTI의 오픈 AI API, Data 서비스 누리집에서 데이터셋 배포

1.3. AI 허브

AI 기술 및 제품 서비스 개발에 필요한 AI 인프라를 지원함. 누구나 활용하고 참여가능한 AI 통합플랫폼

1.4. KLUE

한국어 이해 능력 평가를 위한 벤치마크

KLUE

1.5. KorQuAD 1.0 & 2.0

1.6. KorNLU

영어로 된 자연어 추론 및 문장의미 유사도 데이터셋을 기계 번역하여 공개

Further Questions

  • 형태소 분석, 의존구문 분석 등을 위한 코퍼스와, 감정 분석, 유사도 분석 등을 위한 코퍼스는 어떤 경향의 차이를 보일까요?

  • KLUE, KorQuAD와 같은 벤치마크에서 보완할 수 있는 점은 무엇이 있을까요?

  • 데이터셋을 제작하는 데 있어 한국어 데이터 수집의 예상되는 어려운점은 무엇이 있나요?

Last updated