Day10 (10.6, 수)

  • TAPT (Task Adaptive pretraining )

  • 현재 최고점인 모델로 검증 및 재학습해보기

  • 하이퍼파라미터 서치

작업 결과물

1. TAPT

pre-trained 된 모델을 특정 task의 도메인에 적용하기 위해 해당 task의 데이터를 가지고 pre-training을 다시하는 기법이다. 이 또한 오피스아워에서 소개되었던 방법으로 성능향상에 도움을 줄 것이라는 기대를 가지고 진행하게 되었다.

2. 하이퍼파라미터 서치

우선 KLUE 논문에 나와있는 파라미터들을 테스트해보았다.

종혁님께서 실험한 결과로

  • Optimizer: AdamW

  • learning rate: 1×1051 \times 10^-5 (큰 영향없음)

  • warmup ratio: 0 (큰 영향없음)

  • weight decay: 0 (큰 영향없음)

  • batch size: 16, 32 로 테스트 (8<16)

  • epoch: 10으로 주고 가장 좋은 케이스 추출

  • sequence-length: 128

으로 정리해 볼수 있었고, seed 를 변경해보면서 성능향상을 확인해보기로 하였다.

3. 현재 최고점인 모델 검토

효석님께서 만든 RoBERTa-large 모델 + type entity mask punct 기법이 현재 가장 높은 점수를 얻었고, 내가 드는 의구심은 뭔가 비슷하게 구현을 했던 내 모델은 왜 점수가 안나올까였다... 하여 해당 모델을 검토하며 차이점을 체크할 수 있었고, 해당 모델을 재학습하여 해당 성능이 나오는지를 확인하였다.

  • type 구분자를 한글로 치환함 PER -> 사람, ORG -> 기관

  • ∧ -> ^ 로 사용

  • sequence max-length: 256 -> 200

  • epoch 수 더 많음

Summary

눈에 띄게 성능에 향상이 있는 모델을 찾지 못해서 제출은 해보지 못했다. 하루 남겨두고 여러 고민을 하였지만 어떤게 문제인지 확 와닿지는 않았던게 아쉬웠다...

Last updated