(8강) GPT 언어 모델

  • GPT(Generation Pre-trained Transformer)

  • BERT와의 큰 차이로는 다음에 올 확률이 높은 단어를 예측하는 모델

  • Generation 분야에 강점을 가지고 있음

[Reference]

1. GPT 언어 모델

1.1. GPT 모델 소개

다음에 나올 단어를 가장 적절히 예측하는 모델이다. 아래와 같은 Task에 적용이 가능하다

  • [자연어 문장 -> 분류] 성능이 아주 좋은 디코더인 GPT

  • 적은 양의 데이터에서도 높은 분류 성능을 나타냄

  • BERT 이전에 SOTA

  • Pre-train 언어 모델의 새 지평을 열었음 -> BERT 발전의 밑거름

  • 한계

    • 지도학습을 필요로 하며, labeled data가 필수

      • 많은 자원이 소모됨.

    • 특정 task를 위해 fine-tuning 된 모델은 다른 task에서 사용 불가능

    • 하지만 "언어"의 특성상, 지도학습의 목적함수와 비지도 학습의 목적함수가 같아 fine-tuning이 필요없다.

      • 엄청 큰 데이터 셋을 사용하면 자연어 task를 자연스럽게 학습하게 된다.

하나의 pre-trained 모델을 한가지에 task에만 수행가능한건 말이 안되기에 Zero-shot 등의 기법이 생겨났다.

GPT2

기존 GPT보다 11GB -> 40GB 로 늘리고 하이퍼 파라미터 117 -> 1500

GPT3

  • GPT-3의 한계

    • weight update가 없다는 것. 즉, 새로운 지식에 대한 학습이 없다는 것.

    • 시기에 따라 달라지는 문제에도 대응이 불가하다.

    • 모델 사이즈를 키우는 것 이외에 연구방향이 필요할 것.

Last updated