CtrlK

(4강) 한국어 BERT 언어 모델 학습

BERT를 직접 학습하는 강의

1. BERT 학습하기

2. BERT 모델 학습

Tokenizer 만들기
데이터셋 확
- 대용량의 Corpus Data가 필요함
Next sentence prediction (NSP)
Masking

도메인 특화 Task에서는 특화된 학습데이터만 사용하는 것이 성능이 더 좋다. 예를 들어 법률 Task와 같은 곳에서는 관련 학습데이터만 학습하는 것이 좋음.

화학 관련 Task도 Pre-trained 모델을 사용하는 것보다 새로 학습시키는 것이 더 좋다.

우선 학습을 위한 데이터를 만들어야 한다. (데이터셋 만들기)

모델의 입력으로 만들기 위한 Dataset을 만드는 것과 모델에게 Dataset을 어떻게 전달하는지를 담당하는 Dataloader가 있다.

실습코드 Link

(4강) 한국어 BERT 언어모델 학습 - 0_BERT_MASK_Attack.ipynbGoogle Docs

(4강) 한국어 BERT 언어모델 학습 - 1_한국어_BERT_pre_training.ipynbGoogle Docs

Previous(3강) BERT 언어모델 소개 Next(5강) BERT 기반 단일 문장 분류 모델 학습

Last updated 4 years ago

Was this helpful?