(8강) GPT 언어 모델
Last updated
Last updated
GPT(Generation Pre-trained Transformer)
BERT와의 큰 차이로는 다음에 올 확률이 높은 단어를 예측하는 모델
Generation 분야에 강점을 가지고 있음
[Reference]
언어 모델의 학습법 1. Week 19 - 언어 모델을 가지고 트럼프 봇 만들기?!
다음에 나올 단어를 가장 적절히 예측하는 모델이다. 아래와 같은 Task에 적용이 가능하다
[자연어 문장 -> 분류] 성능이 아주 좋은 디코더인 GPT
적은 양의 데이터에서도 높은 분류 성능을 나타냄
BERT 이전에 SOTA
Pre-train 언어 모델의 새 지평을 열었음 -> BERT 발전의 밑거름
한계
지도학습을 필요로 하며, labeled data가 필수
많은 자원이 소모됨.
특정 task를 위해 fine-tuning 된 모델은 다른 task에서 사용 불가능
하지만 "언어"의 특성상, 지도학습의 목적함수와 비지도 학습의 목적함수가 같아 fine-tuning이 필요없다.
엄청 큰 데이터 셋을 사용하면 자연어 task를 자연스럽게 학습하게 된다.
하나의 pre-trained 모델을 한가지에 task에만 수행가능한건 말이 안되기에 Zero-shot 등의 기법이 생겨났다.
기존 GPT보다 11GB -> 40GB 로 늘리고 하이퍼 파라미터 117 -> 1500
GPT-3의 한계
weight update가 없다는 것. 즉, 새로운 지식에 대한 학습이 없다는 것.
시기에 따라 달라지는 문제에도 대응이 불가하다.
모델 사이즈를 키우는 것 이외에 연구방향이 필요할 것.