Day10 (10.6, 수)

TAPT (Task Adaptive pretraining )

[논문 리뷰] Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks - 1매일 한걸음씩

현재 최고점인 모델로 검증 및 재학습해보기
하이퍼파라미터 서치

작업 결과물

1. TAPT

pre-trained 된 모델을 특정 task의 도메인에 적용하기 위해 해당 task의 데이터를 가지고 pre-training을 다시하는 기법이다. 이 또한 오피스아워에서 소개되었던 방법으로 성능향상에 도움을 줄 것이라는 기대를 가지고 진행하게 되었다.

2. 하이퍼파라미터 서치

우선 KLUE 논문에 나와있는 파라미터들을 테스트해보았다.

종혁님께서 실험한 결과로

Optimizer: AdamW
learning rate: $1 \times 10^-5$ (큰 영향없음)
warmup ratio: 0 (큰 영향없음)
weight decay: 0 (큰 영향없음)
batch size: 16, 32 로 테스트 (8<16)
epoch: 10으로 주고 가장 좋은 케이스 추출
sequence-length: 128

으로 정리해 볼수 있었고, seed 를 변경해보면서 성능향상을 확인해보기로 하였다.

3. 현재 최고점인 모델 검토

효석님께서 만든 RoBERTa-large 모델 + type entity mask punct 기법이 현재 가장 높은 점수를 얻었고, 내가 드는 의구심은 뭔가 비슷하게 구현을 했던 내 모델은 왜 점수가 안나올까였다... 하여 해당 모델을 검토하며 차이점을 체크할 수 있었고, 해당 모델을 재학습하여 해당 성능이 나오는지를 확인하였다.

type 구분자를 한글로 치환함 PER -> 사람, ORG -> 기관
∧ -> ^ 로 사용
sequence max-length: 256 -> 200
epoch 수 더 많음

Summary

눈에 띄게 성능에 향상이 있는 모델을 찾지 못해서 제출은 해보지 못했다. 하루 남겨두고 여러 고민을 하였지만 어떤게 문제인지 확 와닿지는 않았던게 아쉬웠다...

PreviousDay9 (10.5, 화)NextDay 11 (10.7 목)

Last updated 2 years ago