week3

  • 서빙 테스트

  • 모델 성능개선

  • Test 자동화

1. 서빙테스트

각 파트별로 구현한 모델, 백엔드, 프론트엔드를 합쳐 하나의 데모로 만드는 작업을 진행하고, 테스트를 하였다.

1.1. 결과 및 이슈

  • 기대한 UI 기능 확인완료

  • 인퍼런스 시간 0.03초 정도로 매우 빠르게 반응

  • 실시간 차트 그리기 잘나옴

  • 시1발, Tlqkf 등 단어 검증

  • 좋아요, 주연 -> 부정적인 단어로 판별

  • "쇼호스트 얼굴 예쁘네 , XX 할뻔" 같은 성희롱적 발언 -> 긍정으로 판별

2. 모델성능 개선

긍정과 부정에 대한 표현은 도메인별로 크게 다르지 않을 것이라고 생각했지만, 영화나 게임리뷰와 쇼핑도메인 사이에 차이점이 있음을 확인할 수 있었다.

  • 배보다 배꼽이 더 큰 듯 (부정) / 배꼽 빠질뻔! (긍정)

  • 주연 연기 왜이렇게 못하냐 (부정)

위와 같이 배꼽이란 단어가 영화데이터에서는 긍정으로 쓰이지만, 쇼핑 데이터에서는 부정으로 쓰이다보니 긍부정을 잘못맞추는 경우가 발생하는것을 확인할 수 있었다.

원래 처음에 했어야하지만 리얼데이터를 수집하는데 시간이 걸리고, 도메인간에 유사할 것이라 생각하여 진행하지않았던 라이브커머스 데이터를 가지고 엑티브러닝을 진행

엑티브러닝

  • 추론을 진행하고, 잘 못맞추는 데이터에 한해서 직접라벨링을 진행하고 재학습 반복

그 결과 우리가 확인했던 데이터에 대해서는 제대로 판별하는 것을 확인했지만, 실제 서비스를 진행하고자 한다면, 라이브커머스의 더많은 데이터셋을 구축하는 것이 필요해보였다.

3. 위 과정을 통해 느낀점

3.1. 느낀점

PLM 모델을 사용함에 있어서도 유사한 도메인을 사용해야한다고 배운적이 있다. 그 사실을 직접 눈으로 확인할 수 있는 계기가 되었고, 데이터 검수에 중요성을 보다 크게 느낄 수 있었다.

3.2. 개선점

  • 라이브커머스 방송안에서도 각 카테고리(품목) 별로 학습데이터를 구축하는것이 필요

    • 예를 들어 음식과 의류에서도 위와같은 문제가 있을 수 있음

    • 한문장에 여러 감정이 섞인경우에 대해 긍정으로 할지 부정으로 할지에 대해 가이드라인 작성

  • 의미론적 혐오발언에 대한 학습데이터 증가

    • 라이브커머스의 경우 Recall 보다 Precision이 더 중요하다. 사용자가 욕설을 하지않았는데 이를 차단하게 된다면, 유저는 더 이상 이 플랫폼을 사용하지 않을것이다.

    • 위 사항이 의미론적 데이터에 대해 잡아내기 힘든점이라고 생각된다... 이를 개선하기 위한 방법은 더 고민해봐야겠다.

4. 서빙단 추가구현

라이브커머스 크롤링데이터를 직접 채팅하는것처럼 올려 실제 상황을 가정하고 테스트를 진행할 수 있도록 수정.

Last updated