(9강) Closed-book QA with T5

retriever-reader 방법론 이외에 ODQA를 푸는 방법
T5모델을 활용한 closed-book QA
text-to-text format이란?
[Reference & Further Reading]
Exploring the limits of transfer learning with a unified text-to-text transformer(T5)
How much knowledge can you pack into the parameters of language model?
UNIFIEDQA: Crossing Format Boundaries with a Single QA System

1. Closed-book Question Answering

1.1. Idea of Closed QA

모델이 이미 사전학습으로 대량의 지식을 학습 했다면, 사전학습 언어 모델 자체가 이미 하나의 knowledge storage라고 볼 수 있지 않을까?

지식을 찾을 수 있는 Corpus를 제공할 지 말지에 대한 고민이 Open/Closed Book 의 차이이다. 오픈북 시험과 일반적인 시험의 차이라고 보면 되지않을까

zero shot QA performance of GPT-2

사전 학습시 전혀 보지 않은 Natural Question Dataset에도 어느정도 대답을 하는 것을 볼 수 있었다.

1.2. Open book vs Closed book

Open-book QA
- 대량의 지식소스를 특정 문서 단위로 나누어 Dense/Sparse 형태로 표현한 후, query가 들어오면 가장 그와 관련된 문서를 search
- 지식 소스를 저장하기 어렵고, 검색에 소요되는 시간이 크다.
Closed-book QA
- 대량의 지식 소스(위키피디아)를 기반으로 사전학습된 언어 모델이 그 지식을 기억하고 있을 것이라 가정함. Search 과정 없이 바로 정답을 생성함
- 사전 학습된 언어 모델이 얼마나 지식을 잘 기억하고 있는지가 매우 중요함.

2. Text-to-Text Format

2.1. Closed-book QA as Text-to-Text Format

Closed-book QA에 사용된 방법은 Generation-based MRC와 유사하다.
- 단, 입력에 지문(context)가 없이 질문만 들어간다는 것이 차이점
- 사전 학습된 언어 모델은 BART와 같은 seq-to-seq 형태의 transformer 모델을 사용함
- Text-to-Text format에서는 각 입력값(질문)과 출력값(답변)에 대한 설명을 맨 앞에 추가함.

2.2. Example

Task-specific prefix를 추가 -> 특정 task에 알맞은 output text를 생성하도록 함 (위 이미지)
MNLI: 두개의 sentence의 관계를 예측하는 task

2.3. Model

2.4. T5

Text-to-Text Format이라는 형태로 데이터의 입출력을 만들어 거의 모든 자연어처리 문제를 해결하도록 학습된 seq-to-seq 형태의 Transformer 모델

Pre-Training T5

3. Experiment Result & Analysis

3.1. Experiment Setting

Dataset
- Open-domain QA 데이터셋 또는 MRC 데이터셋에서 지문을 제거하고 질문과 답변만 남긴 데이터셋을 활용
Salient Span Masking
- 고유명사, 날짜 등 의미를 갖는 위에 속하는 토큰 범위를 마스킹한 뒤 학습
- Pre-trained 체크포인트에서 추가로 pre-training함
Fine-Tuining
- Pre-Trained T5 체크포인트를 Open-domain QA 학습 데이터셋으로 추가 학습

3.2. Quantitative Example

대부분의 Open-book 스타일 모델(문서 검색 후 기계 독해) 뛰어난 성능을 보여줌
모델 크기가 커질 수록 성능이 증가함
- 🤷‍♂️모델 크기가 작다면 과연 일반 Open-book 모델보다 좋은성능을 낼 수 있을까?
- Salient Span Masking이 성능을 크게 끌어올림

3.3. False negatives

Exact match 기준으로 오답으로 채점된 결과를 사람이 평가한 결과 오답이 아닌경우

Phrasing Mismatch: 정답에 대한 표현이 다른 경우
Imcomplete Annotation: 정답이 여러개일수 있으나 하나만 정답으로 처리되는 경우
Unanswerable: 질문을 한 시간이나 문맥에 따라서 정답이 달라지는 경우

3.4. 한계

모델의 크기가 커서 계산량이 많고 속도가 느림
- 더 효율적인 모델 필요
모델이 어떤 데이터로 답을 내는지 알 수 없음
- 결과의 해석 가능성을 높이는 연구 필요
모델이 참조하는 지식을 추가하거나 제거하기 어려움

Previous(8강) Reducing Training Bias Next(10강) QA with Phrase Retrieval

Last updated 3 years ago

Was this helpful?