Transformer to T5
Last updated
Last updated
Transformer 기반의 모델의 발전 과정
Seq2Seq
Neural Machine Translation
Encoder - Decoder 구조
Attention + Seq2Seq
Neural Machine Translation
Decoder가 Source sentence의 중요한 정보에 집중하게 하자
Transformer
Neural Machine Translation
Self-attention, Multi-head attention
GPT1 (Transformer Decoder block)
Task Agnostic: Pretraining + Finetuning
언어자체를 이해할 수 있는 좋은 representation을 학습해보자
BERT (Trainsformer Encoder block)
Task Agnostic: Pretraining + Finetuning
언어를 더 잘 이해하기 위해 Bidirectional 하게 맥락을 파악해보자
모든 NLP Task 에서 SOTA
GPT-2 (Transformer Decoder block)
Task Agnostic: Zeroshot task transfer
언어를 정확히 학습했다면 Finetuning 없이 Zeroshot 만으로 좋은 성능을 낼 수 있다.
7가지 NLP Task에서 SOTA
XLNet (BERT + GPT => AutoEncoder + Auto Regressive)
Task Agnostic
BERT 이후 큰 성능향상을 보인 첫 모델
Factorization order를 고려하여 양방향 학습
AR formula를 통해 BERT 한계 극복
RoBERTa (Optimize BERT)
Task Agnostic
가장 최적화된 BERT를 만들어보자! (학습시간, batch, train data 증가)
BERT가 underfitting 되어있다고 가정하고 param을 최적화하는
MASS (BERT + GPT => AE + AR)
Task Agnostic
Encoder와 Decoder에 상반된 Masking
Decoder: Encoder에서 masking 된 단어 예측
Encoder: Masking 되지 않은 단어 깊은이해
Encoder, Decoder의 joint training 장려
BART (BERT + GPT => AE + AR)
Task Agnostic
Encoder에 다양한 nosing 추가함
Text generation task에서 SOTA
MT-DNN (Based on BERT)
Task Agnostic
Multitask learning을 통해 universal representation을 생성해보자
Pretrain 단계에서 multitask learning 진행
T5 (Encoder-Decoder Transformer)
Task Agnostic
모든 NLP task를 통합할 수 있도록 Text-to-text 프레임워크를 사용하자
👍현재 SOTA
AE의 문제점
[MASK] 토큰이 독립적으로 예측되기 때문에 토큰 사이의 dependency는 학습이 되지않음
Finetuning과정에서 [MASK] 토큰이 등장하지 않기 때문에 pretraining과 finetunung사이에 discrepancy 발생
AR의 문제점
단일 방향 정보만 이용하여 학습 가능함
이런 단점을 보완하여 나온 것이 XLNet