# (3강) 자연어처리 데이터 소개 1

> * 국내의 자연어처리 데이터 제작 흐름에 대해 알아보자
> * 다양한 자연어 처리 데이터의 유형을 알아본다
>
> **\[Further Reading]**
>
> * [Open Korean Corpora](https://aclanthology.org/2020.nlposs-1.12/) \[Paper]
> * [A Survey on Awesome Korean NLP Datasets](https://www.preprints.org/manuscript/202110.0247/v1) \[Paper]

## 1. 국내 언어 데이터의 구축 프로젝트

* 모두의 말뭉치(국립국어원): AI-hub, NIA
* KLUE(Upstage): KorQuAD(LG CNS), KorNLU(kakaobrain)

### 1.1. 21세기 세종 계획과 모두의 말뭉치

#### 21세기 세종계획

* 1997년 계획, 1998 \~ 2007년 10년간 구축
* 약 2억어절의 자료 구축
* 공개 XML 형식
* 언어정보 나눔터 누리집을 통해 배포하다 중단후 DVD로만 배포
* Mecap, Khaii, 꼬마, 한나눔, 코모란 등에서 세종형태 분석 태그표를 채택함

  <https://docs.google.com/spreadsheets/d/1OGAjUvalBuX-oZvZ_-9tEfYD2gQe7hTGsgUpiiBSXI8/edit?usp=sharing>

#### 모두의 말뭉치

* 인공지능의 한국어 처리능력향상에 필수적인 한국어 학습자료 공개 플랫폼
* '21세기 세종계획'보다 일상대화, 메신저, 웹문서등 구어체 자료의 비중을 높임
* 다층위 주석 말뭉치 포함(형태, 구문, 어휘의미, 의미역, 개체명, 상호참조 등)
* JSON 형식
* <https://corpus.korean.go.kr/>

위 두가지 모두 학습, 검증, 평가용이 나누어져있지 않아 직접 나눠서 사용하여야한다.

### 1.2. 엑소브레인

엑소브레인(ExoBrain): 내 몸 바깥에 있는 인공 두뇌

* 인간의 지적 노동을 보조할 수 있는 언어처리 분야의 AI 기술개발을 위함
* 전문직 종사자, 금융, 법률, 또는 특허 등)의 조사, 분석 등의 지식노동을 보조 가능한
  * 언어 문법 분석을 넘어선 언어의 의미추론 기술개발
  * 전문분야 원인, 절차, 상관관계 등 고차원 지식학습 및 축적 기술 개발
  * 전문 문야 대상 인간과 기계의 연속적인 문답을 통한 심층질의 응답 기술 개발 및 국내외 표준화를 통해 핵심 IPR을 확보하는 프로젝트
* ERTI의 오픈 AI API, Data 서비스 누리집에서 데이터셋 배포

### 1.3. AI 허브

AI 기술 및 제품 서비스 개발에 필요한 AI 인프라를 지원함. 누구나 활용하고 참여가능한 AI 통합플랫폼

### 1.4. KLUE

한국어 이해 능력 평가를 위한 벤치마크

{% content-ref url="/pages/-MkPOfnuf6\_LYLEWPs3T" %}
[KLUE](/til/til-ml/untitled-2/klue.md)
{% endcontent-ref %}

### 1.5. KorQuAD 1.0 & 2.0

### 1.6. KorNLU

영어로 된 자연어 추론 및 문장의미 유사도 데이터셋을 기계 번역하여 공개

## **Further Questions**

* 형태소 분석, 의존구문 분석 등을 위한 코퍼스와, 감정 분석, 유사도 분석 등을 위한 코퍼스는 어떤 경향의 차이를 보일까요?
* KLUE, KorQuAD와 같은 벤치마크에서 보완할 수 있는 점은 무엇이 있을까요?
* 데이터셋을 제작하는 데 있어 한국어 데이터 수집의 예상되는 어려운점은 무엇이 있나요?


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://lswkim322.gitbook.io/til/til-ml/boostcamp/p-stage-nlp/3-1.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
