(4강) 한국어 BERT 언어 모델 학습

BERT를 직접 학습하는 강의

1. BERT 학습하기

2. BERT 모델 학습

  1. Tokenizer 만들기

  2. 데이터셋 확

    • 대용량의 Corpus Data가 필요함

  3. Next sentence prediction (NSP)

  4. Masking

도메인 특화 Task에서는 특화된 학습데이터만 사용하는 것이 성능이 더 좋다. 예를 들어 법률 Task와 같은 곳에서는 관련 학습데이터만 학습하는 것이 좋음.

  • 화학 관련 Task도 Pre-trained 모델을 사용하는 것보다 새로 학습시키는 것이 더 좋다.

우선 학습을 위한 데이터를 만들어야 한다. (데이터셋 만들기)

모델의 입력으로 만들기 위한 Dataset을 만드는 것과 모델에게 Dataset을 어떻게 전달하는지를 담당하는 Dataloader가 있다.

Last updated