Transformer to T5

Introduction

Transformer 기반의 모델의 발전 과정

Seq2Seq
- Neural Machine Translation
- Encoder - Decoder 구조
Attention + Seq2Seq
- Neural Machine Translation
- Decoder가 Source sentence의 중요한 정보에 집중하게 하자
Transformer
- Neural Machine Translation
- Self-attention, Multi-head attention
GPT1 (Transformer Decoder block)
- Task Agnostic: Pretraining + Finetuning
- 언어자체를 이해할 수 있는 좋은 representation을 학습해보자
BERT (Trainsformer Encoder block)
- Task Agnostic: Pretraining + Finetuning
- 언어를 더 잘 이해하기 위해 Bidirectional 하게 맥락을 파악해보자
- 모든 NLP Task 에서 SOTA
GPT-2 (Transformer Decoder block)
- Task Agnostic: Zeroshot task transfer
- 언어를 정확히 학습했다면 Finetuning 없이 Zeroshot 만으로 좋은 성능을 낼 수 있다.
- 7가지 NLP Task에서 SOTA
XLNet (BERT + GPT => AutoEncoder + Auto Regressive)
- Task Agnostic
- BERT 이후 큰 성능향상을 보인 첫 모델
  - Factorization order를 고려하여 양방향 학습
  - AR formula를 통해 BERT 한계 극복
RoBERTa (Optimize BERT)
- Task Agnostic
- 가장 최적화된 BERT를 만들어보자! (학습시간, batch, train data 증가)
  - BERT가 underfitting 되어있다고 가정하고 param을 최적화하는
MASS (BERT + GPT => AE + AR)
- Task Agnostic
- Encoder와 Decoder에 상반된 Masking
  - Decoder: Encoder에서 masking 된 단어 예측
  - Encoder: Masking 되지 않은 단어 깊은이해
  - Encoder, Decoder의 joint training 장려
BART (BERT + GPT => AE + AR)
- Task Agnostic
- Encoder에 다양한 nosing 추가함
- Text generation task에서 SOTA
MT-DNN (Based on BERT)
- Task Agnostic
- Multitask learning을 통해 universal representation을 생성해보자
- Pretrain 단계에서 multitask learning 진행
T5 (Encoder-Decoder Transformer)
- Task Agnostic
- 모든 NLP task를 통합할 수 있도록 Text-to-text 프레임워크를 사용하자
- 👍현재 SOTA

AR과 AE

AE의 문제점
- [MASK] 토큰이 독립적으로 예측되기 때문에 토큰 사이의 dependency는 학습이 되지않음
- Finetuning과정에서 [MASK] 토큰이 등장하지 않기 때문에 pretraining과 finetunung사이에 discrepancy 발생
AR의 문제점
- 단일 방향 정보만 이용하여 학습 가능함
이런 단점을 보완하여 나온 것이 XLNet

Previous공부할 것 임시보관 NextHugging Face Tutorial

Last updated 3 years ago

Was this helpful?