KLUE
1. KLUE란?
KLUE (Korean Language Understanding Evaluation Benchmark, 한국어 자연어 이해 평가 데이터셋)는 한국어 언어 모델의 공정한 평가를 위한 목적으로 8개종류 (뉴스 헤드라인 분류, 문장 유사도 비교, 자연어 추론, 개체명 인식, 관계 추출, 형태소 및 의존 구문 분석, 기계 독해 이해, 대화 상태 추적)의 한국어 자연어 이해 문제가 포함된 데이터 집합체 이다.
2. Tasks
KLUE에서는 아래와 같이 8개의 Task에 대해 평가지표를 제공하고 있다.
Topic Classification (TC, 토픽분류)
Sentence Textual Similarity (STS, 의미 유사도)
Natural Language Inference (NLI, 자연어 추론)
Named Entity Recognition (NER, 개체명 인식)
Relation Extraction (RE, 관계추출)
(Part-Of-Speech) + Dependency Parsing (DP, 의존구문분석)
Machine Reading Comprehension (MRC, 기계독해)
Dialogue State Tracking (DST, 대화 상태 추적)
2.1. TC (Topic Classification, YNAT, 토픽분류)
주어진 문장의 분류를 예측하는 것.
뉴스의 헤드라인을 제공하고 politics, economy, society, culture, world, IT/science, sport 중 어디에 속하는지를 예측한다.
평가방법
Macro F1 Score
DataSet
연합뉴스(YNA)의 헤드라인 뉴스를 수집
2016.01 ~ 2020.12 까지의 네이버 뉴스 위주
각 Section 별로 약 1만개의 데이터를 수
2.2. STS (Semantic Textual Similarlity, 의미 유사)
두 문장간의 유사도를 측정
0(연관없음) ~ 5(연관있음)
3이상이면 연관이 있는 것으로 간
평가방법
Pearson's correlation coefficient(피어슨 상관계수) - 두 변수 X, Y간의 선형 상관관계를 계량화한 수
F1 score
DataSet
AirBNB(리뷰 댓글), policy(공식뉴스), paraKQC(smart home queries)
2.3. NLI (Natural Language Inference, 자연어 추론)
가설 문장(hypothesis)과 전제 문장(premise) 사이의 관계 추론 - 전제 문장에 대해서 가설문장의 참(entailment), 거짓(contradiction), 관계없음(neutral)에 대해서 알아내는 것
평가방법
Accurancy
DataSet
WIKITREE, policy, WIKINEWS, KIKIPDEIA, NSMC and AIRBNB
10,000개의 전제를 추출하여 30,000 개 쌍의 데이터를 구축
2.4. NER (Named Entity Recognition, 개체명 인식)
이름을 가진 개체의 유형을 인식하는 것. - 김상욱은 학생이다. (김상욱: 사람)
person(PS), location(LC), organization(OG), date(DT), time(TI), quantity(QT)
평가방법
entity-level macro F1 Score 개체명 레벨에서 평가, 교착어의 어근과 접사가 잘 분해되었는지를 평가
character-level macro F1 Score 모델 예측과 정답 사이의 부분 중첩을 측정하기 위한 점수로, 레이블마다 F1을 구해서 평
DataSet
WIKITREE and NSMC
WIKITREE의 뉴스 기사와 NSMC의 영화나 TV 리뷰 데이터를 활용
2.5. RE (Relation Extraction)
텍스트에서 단어들간 의미론적 관계 식별 - "Kierkegaard was born to an affluent family in Copenhagen" -> (Kierkegaard, Copenhagen) 은 place_of_birth 에 속한다.
30개의 relation class가 존재한다.
18개의 person-related relation
11개의 oranization-related relation
1개의 no_relation
평가방
F1 score 연관관계가 있을 때 그 정도를 평가
AUPRC(Area under the precision-recall curve) x: recall, y: precision 로 그린 곡선아래 면적 값
DataSet
WIKIPEDIA, WIKITREE, policy corpora to cover various named entities and relational facts
문장의 끝마침있고 510 자 이하의 길이를 가진 문장.
2.6. DP (Dependency Parsing, 의존 구문 분석)
finding relational information among words 문장의 문법적 구조를 파악하여 단어간의 관계를 찾는 방법. 문장의 구조적 모호성을 해결하기 위함이고 이를 통해 다른 Task에 사용이 가능해 진다.
NP(Noun Pharse), VP(verb pharse)등 9개의 syntax tag와 6의 Function tag의 조합으로 이루어진 36개의 Label을 가진다.
DEPREL (Dependency relation label)
평가방법
UAS(Unlabeled Attachment Score) Only for Head Prediction
LAS(Labeled Attachment Score) Both Head and DEPREL
Dataset
WIKITREE and AIRBNB
2.7. MRC (Machine Reading Comprehension, 기계독해)
주어진 문장으로부터 질문에 대해 답하는 모델 Question Answering
모델의 기계 판독기능의 다양한 측면을 평가하기 위해 paraphrase(의역), multi sentence reasoning(여러문장추론), unanswerable 3가지 타입의 질문을 제공한다.
평가방법
EM (Exact Match)
예측 답변과 실제 답변이 일치하면 점수를 얻음.
character-level ROUGE-W which can be viewed as longest common consecutive subsequence (LCCS)-based F1 score
예측 답변과 실제 답변이 완벽하게 일치하지 않아도 점수를 얻을 수 있다.
DataSet
Korea WIKIPEDIA, 한국경제, ACROFAN의 기
2.8. DST (a.k.a WoS, Dialogue State Tracking, 대화상태추적)
사람과 컴퓨터의 대화에서 사람이 하는 말의 문맥을 보고 대화 상태를 예측하는 것.
평가방법
(JGA)joint gial accuracy 매 턴마다 실제 값과 예측 값이 일치하는 정도를 수치화한 값
Slot F1 Score 매턴마다 구한 micro F1 scores의 평균값
※ value pair가 none인 데이터가 있는데 이는 slot micro F1 score를 계산하지 않는다고 합니다.
DataSet
Last updated