# Day3(2.16, 수)

## TO-DO

* 허깅페이스 모델 돌리기
* 사용할 백본 모델 선정하기(BERT, RoBERTa-{base,large}, KoBERT 등등)

## Today's Work

### 1. 허깅페이스 모델돌리기

우선 과거 KLUE-RE Task 에서 활용한 코드를 바탕으로 Train과 inference 코드를 구현하였다. 우선 bert-base로 기본틀을 구성하고, roberta-base, roberta-large 모델을 테스트 할 수 있었다.

동일하게 10epoch으로 학습을 진행하고, best\_model로 선정된 모델로 추론을 진행하였다.

* BERT: 0.768
* RoBERTa-base: 0.767
* RoBERTa-large: 0.782

역시... RoBERTa-large... 학습과정에서 조금 의아스러운 부분이 있었는데 Validation Loss가 증가하는데 Accuracy도 증가하는 것을 확인할 수 있었다. 과적합되면, Acc도 떨어지는게 맞을것같은데... 이부분은 좀더 확인해 봐야할 것 같다.

**RoBERTa-large**를 백본으로 해서 추가테스트를 진행하기로 하자.&#x20;

### 2. 데이터 추가

klue dev데이터를 학습데이터로 추가한 데이터셋으로 다시 학습과 추론을 진행하였다.

* RoBERTa-large + additional dataset: 0.802

### 3. Accuracy 기준 모델로 추론   &#x20;

우선 앞서말한대로 best\_model로 선정된 것은 validation loss가 최소일때이다. 거의 마지막 epoch에 생성된 accuracy가 높은 모델로 추론을 해보기로 하였다.

* RoBERTa-large + additional dataset + Acc: 0.836 (61등!!)

...?? 학습이 덜 되었던거로 확인할 수 있었고, Acc기준 모델을 선정해서 추론을 진행해보아야할 것 같다.

우선 10epoch이 적정한 학습량인지 체크하기 위해 20epoch 모델을 준비하기로 하였다. (금일 제출횟수 소진)

## 후기

기존에 대회에서는 동료들의 아이디어나 코드를 많이 참조한 반면 직접 아이디어를 주도적으로 생각하고, 시도해봄으로써 많이 배울수 있었다.
