(4강) 한국어 BERT 언어 모델 학습
Last updated
Last updated
BERT를 직접 학습하는 강의
Tokenizer 만들기
데이터셋 확
대용량의 Corpus Data가 필요함
Next sentence prediction (NSP)
Masking
도메인 특화 Task에서는 특화된 학습데이터만 사용하는 것이 성능이 더 좋다. 예를 들어 법률 Task와 같은 곳에서는 관련 학습데이터만 학습하는 것이 좋음.
화학 관련 Task도 Pre-trained 모델을 사용하는 것보다 새로 학습시키는 것이 더 좋다.
모델의 입력으로 만들기 위한 Dataset을 만드는 것과 모델에게 Dataset을 어떻게 전달하는지를 담당하는 Dataloader가 있다.