Day10 (10.6, 수)
TAPT (Task Adaptive pretraining )
현재 최고점인 모델로 검증 및 재학습해보기
하이퍼파라미터 서치
작업 결과물
1. TAPT
pre-trained 된 모델을 특정 task의 도메인에 적용하기 위해 해당 task의 데이터를 가지고 pre-training을 다시하는 기법이다. 이 또한 오피스아워에서 소개되었던 방법으로 성능향상에 도움을 줄 것이라는 기대를 가지고 진행하게 되었다.
2. 하이퍼파라미터 서치
우선 KLUE 논문에 나와있는 파라미터들을 테스트해보았다.
종혁님께서 실험한 결과로
Optimizer: AdamW
learning rate: (큰 영향없음)
warmup ratio: 0 (큰 영향없음)
weight decay: 0 (큰 영향없음)
batch size: 16, 32 로 테스트 (8<16)
epoch: 10으로 주고 가장 좋은 케이스 추출
sequence-length: 128
으로 정리해 볼수 있었고, seed 를 변경해보면서 성능향상을 확인해보기로 하였다.
3. 현재 최고점인 모델 검토
효석님께서 만든 RoBERTa-large 모델 + type entity mask punct 기법이 현재 가장 높은 점수를 얻었고, 내가 드는 의구심은 뭔가 비슷하게 구현을 했던 내 모델은 왜 점수가 안나올까였다... 하여 해당 모델을 검토하며 차이점을 체크할 수 있었고, 해당 모델을 재학습하여 해당 성능이 나오는지를 확인하였다.
type 구분자를 한글로 치환함 PER -> 사람, ORG -> 기관
∧ -> ^ 로 사용
sequence max-length: 256 -> 200
epoch 수 더 많음
Summary
눈에 띄게 성능에 향상이 있는 모델을 찾지 못해서 제출은 해보지 못했다. 하루 남겨두고 여러 고민을 하였지만 어떤게 문제인지 확 와닿지는 않았던게 아쉬웠다...
Last updated