KLUE

1. KLUE란?

KLUE (Korean Language Understanding Evaluation Benchmark, 한국어 자연어 이해 평가 데이터셋)는 한국어 언어 모델의 공정한 평가를 위한 목적으로 8개종류 (뉴스 헤드라인 분류, 문장 유사도 비교, 자연어 추론, 개체명 인식, 관계 추출, 형태소 및 의존 구문 분석, 기계 독해 이해, 대화 상태 추적)의 한국어 자연어 이해 문제가 포함된 데이터 집합체 이다.

2. Tasks

KLUE에서는 아래와 같이 8개의 Task에 대해 평가지표를 제공하고 있다.

  • Topic Classification (TC, 토픽분류)

  • Sentence Textual Similarity (STS, 의미 유사도)

  • Natural Language Inference (NLI, 자연어 추론)

  • Named Entity Recognition (NER, 개체명 인식)

  • Relation Extraction (RE, 관계추출)

  • (Part-Of-Speech) + Dependency Parsing (DP, 의존구문분석)

  • Machine Reading Comprehension (MRC, 기계독해)

  • Dialogue State Tracking (DST, 대화 상태 추적)

2.1. TC (Topic Classification, YNAT, 토픽분류)

  • 주어진 문장의 분류를 예측하는 것.

  • 뉴스의 헤드라인을 제공하고 politics, economy, society, culture, world, IT/science, sport 중 어디에 속하는지를 예측한다.

평가방법

Macro F1 Score

F1=2×percision×recallprecision+recallF_1 = 2 \times \frac{percision \times recall}{precision + recall}

DataSet

  • 연합뉴스(YNA)의 헤드라인 뉴스를 수집

    • 2016.01 ~ 2020.12 까지의 네이버 뉴스 위주

  • 각 Section 별로 약 1만개의 데이터를 수

    {
        "guid": "ynat-v1_dev_00000",
        "title": "5억원 무이자 융자는 되고 7천만원 이사비는 안된다",
        "predefined_news_category": "경제",
        "label": "사회",
        "annotations": {
            "annotators": [
                "18",
                "03",
                "15"
            ],
            "annotations": {
                "first-scope": [
                    "사회",
                    "사회",
                    "경제"
                ],
                "second-scope": [
                    "해당없음",
                    "해당없음",
                    "사회"
                ],
                "third-scope": [
                    "해당없음",
                    "해당없음",
                    "생활문화"
                ]
            }
        },
        "url": "https://news.naver.com/main/read.nhn?mode=LS2D&mid=shm&sid1=101&sid2=260&oid=001&aid=0009563542",
        "date": "2017.09.21. 오후 5:09"
    },

2.2. STS (Semantic Textual Similarlity, 의미 유사)

두 문장간의 유사도를 측정

  • 0(연관없음) ~ 5(연관있음)

  • 3이상이면 연관이 있는 것으로 간

평가방법

Pearson's correlation coefficient(피어슨 상관계수) - 두 변수 X, Y간의 선형 상관관계를 계량화한 수

F1 score

F1=2×percision×recallprecision+recallF_1 = 2 \times \frac{percision \times recall}{precision + recall}

DataSet

  • AirBNB(리뷰 댓글), policy(공식뉴스), paraKQC(smart home queries)

    {
        "guid": "klue-sts-v1_dev_00000",
        "source": "airbnb-rtt",
        "sentence1": "무엇보다도 호스트분들이 너무 친절하셨습니다.",
        "sentence2": "무엇보다도, 호스트들은 매우 친절했습니다.",
        "labels": {
            "label": 4.9,
            "real-label": 4.857142857142857,
            "binary-label": 1
        },
        "annotations": {
            "agreement": "0:0:0:0:1:6",
            "annotators": [
                "17",
                "07",
                "10",
                "12",
                "19",
                "14",
                "15"
            ],
            "annotations": [
                5,
                5,
                5,
                5,
                4,
                5,
                5
            ]
        }
    }

2.3. NLI (Natural Language Inference, 자연어 추론)

가설 문장(hypothesis)과 전제 문장(premise) 사이의 관계 추론 - 전제 문장에 대해서 가설문장의 참(entailment), 거짓(contradiction), 관계없음(neutral)에 대해서 알아내는 것

평가방법

Accurancy

DataSet

  • WIKITREE, policy, WIKINEWS, KIKIPDEIA, NSMC and AIRBNB

  • 10,000개의 전제를 추출하여 30,000 개 쌍의 데이터를 구축

{
        "guid": "klue-nli-v1_dev_00000",
        "source": "airbnb",
        "premise": "흡연자분들은 발코니가 있는 방이면 발코니에서 흡연이 가능합니다.",
        "hypothesis": "어떤 방에서도 흡연은 금지됩니다.",
        "gold_label": "contradiction",
        "author": "contradiction",
        "label2": "contradiction",
        "label3": "contradiction",
        "label4": "contradiction",
        "label5": "contradiction"
    }

2.4. NER (Named Entity Recognition, 개체명 인식)

이름을 가진 개체의 유형을 인식하는 것. - 김상욱은 학생이다. (김상욱: 사람)

  • person(PS), location(LC), organization(OG), date(DT), time(TI), quantity(QT)

평가방법

entity-level macro F1 Score 개체명 레벨에서 평가, 교착어의 어근과 접사가 잘 분해되었는지를 평가

character-level macro F1 Score 모델 예측과 정답 사이의 부분 중첩을 측정하기 위한 점수로, 레이블마다 F1을 구해서 평

DataSet

  • WIKITREE and NSMC

    • WIKITREE의 뉴스 기사와 NSMC의 영화나 TV 리뷰 데이터를 활용

## 토큰, 레이블 구분자 : \t
## 토큰 구분자 : \n
## 문장 구분자 : \n\n
## 주석 : ##
## 컬럼명 : CHAR	NE_TAG
## klue-ner-v1_dev_00000-wikitree	<경찰:OG>은 또 성매매 알선 자금을 관리한 <박:PS>씨의 딸(<32:QT>)과 성매매 여성 <김:PS>모(<33:QT>)씨 등 <16명:QT>을 같은 혐의로 불구속 입건했다.
경	B-OG
찰	I-OG
은	O
 	  O
또	O
 	  O
성	O
매	O
매	O
 	  O
알	O
선	O
 	  O
자	O
금	O
을	O
 	  O
관	O
리	O
한	O
 	  O
박	B-PS
씨	O
의	O

2.5. RE (Relation Extraction)

텍스트에서 단어들간 의미론적 관계 식별 - "Kierkegaard was born to an affluent family in Copenhagen" -> (Kierkegaard, Copenhagen) 은 place_of_birth 에 속한다.

  • 30개의 relation class가 존재한다.

    • 18개의 person-related relation

    • 11개의 oranization-related relation

    • 1개의 no_relation

평가방

F1 score 연관관계가 있을 때 그 정도를 평가

F1=2×percision×recallprecision+recallF_1 = 2 \times \frac{percision \times recall}{precision + recall}

AUPRC(Area under the precision-recall curve) x: recall, y: precision 로 그린 곡선아래 면적 값

DataSet

  • WIKIPEDIA, WIKITREE, policy corpora to cover various named entities and relational facts

  • 문장의 끝마침있고 510 자 이하의 길이를 가진 문장.

    {
        "guid": "klue-re-v1_dev_00000",
        "sentence": "20대 남성 A(26)씨가 아버지 치료비를 위해 B(30)씨가 모아둔 돈을 훔쳐 인터넷 방송 BJ에게 '별풍선'으로 쏜 사실이 알려졌다.",
        "subject_entity": {
            "word": "A",
            "start_idx": 7,
            "end_idx": 7,
            "type": "PER"
        },
        "object_entity": {
            "word": "30",
            "start_idx": 29,
            "end_idx": 30,
            "type": "NOH"
        },
        "label": "no_relation",
        "source": "wikitree"
    }

2.6. DP (Dependency Parsing, 의존 구문 분석)

finding relational information among words 문장의 문법적 구조를 파악하여 단어간의 관계를 찾는 방법. 문장의 구조적 모호성을 해결하기 위함이고 이를 통해 다른 Task에 사용이 가능해 진다.

  • NP(Noun Pharse), VP(verb pharse)등 9개의 syntax tag와 6의 Function tag의 조합으로 이루어진 36개의 Label을 가진다.

  • DEPREL (Dependency relation label)

평가방법

UAS(Unlabeled Attachment Score) Only for Head Prediction

LAS(Labeled Attachment Score) Both Head and DEPREL

Dataset

  • WIKITREE and AIRBNB

## 토큰, 레이블 구분자 : \t
## 토큰 구분자 : \n
## 문장 구분자 : \n\n
## 주석 : ##
## 칼럼명 : INDEX	WORD_FORM	LEMMA	POS	HEAD	DEPREL
## klue-dp-v1_dev_00000_wikitree	'K팝스타3’ 유희열이 홍정희의 탈락에 눈물을 흘렸다.
1	'K팝스타3’	' K 팝스타 3 ’	SS+SL+NNP+SN+SS	2	NP
2	유희열이	유희열 이	NNP+JKS	6	NP_SBJ
3	홍정희의	홍정희 의	NNP+JKG	4	NP_MOD
4	탈락에	탈락 에	NNG+JKB	6	NP_AJT
5	눈물을	눈물 을	NNG+JKO	6	NP_OBJ
6	흘렸다.	흘리 었 다 .	VV+EP+EF+SF	0	VP

2.7. MRC (Machine Reading Comprehension, 기계독해)

주어진 문장으로부터 질문에 대해 답하는 모델 Question Answering

  • 모델의 기계 판독기능의 다양한 측면을 평가하기 위해 paraphrase(의역), multi sentence reasoning(여러문장추론), unanswerable 3가지 타입의 질문을 제공한다.

평가방법

EM (Exact Match)

  • 예측 답변과 실제 답변이 일치하면 점수를 얻음.

character-level ROUGE-W which can be viewed as longest common consecutive subsequence (LCCS)-based F1 score

  • 예측 답변과 실제 답변이 완벽하게 일치하지 않아도 점수를 얻을 수 있다.

DataSet

  • Korea WIKIPEDIA, 한국경제, ACROFAN의 기

        {
            "title": "BMW 코리아, 창립 25주년 기념 ‘BMW 코리아 25주년 에디션’ 한정 출시",
            "paragraphs": [
                {
                    "context": "BMW 코리아(대표 한상윤)는 창립 25주년을 기념하는 ‘BMW 코리아 25주년 에디션’을 한정 출시한다고 밝혔다. 이번 BMW 코리아 25주년 에디션(이하 25주년 에디션)은 BMW 3시리즈와 5시리즈, 7시리즈, 8시리즈 총 4종, 6개 모델로 출시되며, BMW 클래식 모델들로 선보인 바 있는 헤리티지 컬러가 차체에 적용돼 레트로한 느낌과 신구의 조화가 어우러진 차별화된 매력을 자랑한다. 먼저 뉴 320i 및 뉴 320d 25주년 에디션은 트림에 따라 옥스포드 그린(50대 한정) 또는 마카오 블루(50대 한정) 컬러가 적용된다. 럭셔리 라인에 적용되는 옥스포드 그린은 지난 1999년 3세대 3시리즈를 통해 처음 선보인 색상으로 짙은 녹색과 풍부한 펄이 오묘한 조화를 이루는 것이 특징이다. M 스포츠 패키지 트림에 적용되는 마카오 블루는 1988년 2세대 3시리즈를 통해 처음 선보인 바 있으며, 보랏빛 감도는 컬러감이 매력이다. 뉴 520d 25주년 에디션(25대 한정)은 프로즌 브릴리언트 화이트 컬러로 출시된다. BMW가 2011년에 처음 선보인 프로즌 브릴리언트 화이트는 한층 더 환하고 깊은 색감을 자랑하며, 특히 표면을 무광으로 마감해 특별함을 더했다. 뉴 530i 25주년 에디션(25대 한정)은 뉴 3시리즈 25주년 에디션에도 적용된 마카오 블루 컬러가 조합된다. 뉴 740Li 25주년 에디션(7대 한정)에는 말라카이트 그린 다크 색상이 적용된다. 잔잔하면서도 오묘한 깊은 녹색을 발산하는 말라카이트 그린 다크는 장식재로 활용되는 광물 말라카이트에서 유래됐다. 뉴 840i xDrive 그란쿠페 25주년 에디션(8대 한정)은 인도양의 맑고 투명한 에메랄드 빛을 연상케 하는 몰디브 블루 컬러로 출시된다. 특히 몰디브 블루는 지난 1993년 1세대 8시리즈에 처음으로 적용되었던 만큼 이를 오마주하는 의미를 담고 있다.",
                    "qas": [
                        {
                            "question": "말라카이트에서 나온 색깔을 사용한 에디션은?",
                            "answers": [
                                {
                                    "text": "뉴 740Li 25주년 에디션",
                                    "answer_start": 666
                                },
                                {
                                    "text": "뉴 740Li 25주년",
                                    "answer_start": 666
                                }
                            ],
                            "question_type": 2,
                            "is_impossible": false,
                            "guid": "klue-mrc-v1_dev_01891"
                        }
                    ]
                }
            ],
            "news_category": "자동차",
            "source": "acrofan"
        }

2.8. DST (a.k.a WoS, Dialogue State Tracking, 대화상태추적)

사람과 컴퓨터의 대화에서 사람이 하는 말의 문맥을 보고 대화 상태를 예측하는 것.

평가방법

(JGA)joint gial accuracy 매 턴마다 실제 값과 예측 값이 일치하는 정도를 수치화한 값

Slot F1 Score 매턴마다 구한 micro F1 scores의 평균값

※ value pair가 none인 데이터가 있는데 이는 slot micro F1 score를 계산하지 않는다고 합니다.

DataSet

{
        "guid": "wos-v1_dev_00000",
        "domains": [
            "관광",
            "식당",
            "숙소"
        ],
        "dialogue": [
            {
                "role": "user",
                "text": "명동 쇼핑 거리에 대해 물어볼게 있는데 영업시간이랑 입장료, 주소를 알려주세요.",
                "state": [
                    "관광-이름-명동 쇼핑 거리"
                ]
            },
            {
                "role": "sys",
                "text": "먼저 명동 쇼핑 거리에 영업시간은 09시에서 20시까지입니다. 그리고 입장료는 10000원이고 주소는 서울 중구 38345입니다."
            },
            {
                "role": "user",
                "text": "그리고 다음으로 서울 동쪽에 주류를 판매하는 일식당을 찾아주세요. 가격대는 상관없습니다.",
                "state": [
                    "관광-이름-명동 쇼핑 거리",
                    "식당-가격대-dontcare",
                    "식당-지역-서울 동쪽",
                    "식당-종류-일식당",
                    "식당-주류 판매-yes"
                ]
            },
            {
                "role": "sys",
                "text": "그럼 올림픽공원역 근처에 있는 적당한 가격대의 매일식사를 추천합니다."
            }
        ]
    }

Last updated