Day3(2.16, 수)

TO-DO

  • 허깅페이스 모델 돌리기

  • 사용할 백본 모델 선정하기(BERT, RoBERTa-{base,large}, KoBERT 등등)

Today's Work

1. 허깅페이스 모델돌리기

우선 과거 KLUE-RE Task 에서 활용한 코드를 바탕으로 Train과 inference 코드를 구현하였다. 우선 bert-base로 기본틀을 구성하고, roberta-base, roberta-large 모델을 테스트 할 수 있었다.

동일하게 10epoch으로 학습을 진행하고, best_model로 선정된 모델로 추론을 진행하였다.

  • BERT: 0.768

  • RoBERTa-base: 0.767

  • RoBERTa-large: 0.782

역시... RoBERTa-large... 학습과정에서 조금 의아스러운 부분이 있었는데 Validation Loss가 증가하는데 Accuracy도 증가하는 것을 확인할 수 있었다. 과적합되면, Acc도 떨어지는게 맞을것같은데... 이부분은 좀더 확인해 봐야할 것 같다.

RoBERTa-large를 백본으로 해서 추가테스트를 진행하기로 하자.

2. 데이터 추가

klue dev데이터를 학습데이터로 추가한 데이터셋으로 다시 학습과 추론을 진행하였다.

  • RoBERTa-large + additional dataset: 0.802

3. Accuracy 기준 모델로 추론

우선 앞서말한대로 best_model로 선정된 것은 validation loss가 최소일때이다. 거의 마지막 epoch에 생성된 accuracy가 높은 모델로 추론을 해보기로 하였다.

  • RoBERTa-large + additional dataset + Acc: 0.836 (61등!!)

...?? 학습이 덜 되었던거로 확인할 수 있었고, Acc기준 모델을 선정해서 추론을 진행해보아야할 것 같다.

우선 10epoch이 적정한 학습량인지 체크하기 위해 20epoch 모델을 준비하기로 하였다. (금일 제출횟수 소진)

후기

기존에 대회에서는 동료들의 아이디어나 코드를 많이 참조한 반면 직접 아이디어를 주도적으로 생각하고, 시도해봄으로써 많이 배울수 있었다.

Last updated