[P Stage] - 데이터제작(NLP)

해당 강의를 통해 한국어 및 다른 언어에서의 자연어처리 데이터셋의 유형 및 포맷이 어떠한지, 그리고 데이터 셋을 구축하는 일반적인 프로세스가 무엇인지 학습하는 것을 목표로 한다. 또한 위키피디아 원시 말뭉치를 확용하여 직접 관계 추출 Task에 쓰이는 주석 코퍼스를 만들어 본다.

  • 한국어 자연어 데이터의 언어론적 특징에 대해 배우고 데이터셋에 대한 이해도를 높인다.

  • 자연어 데이터셋 제작에 활용되는 다양한 툴을 사용해볼 수 있다.

  • 다수의 인원이 협업하여 제작한 데이터셋을 평가하는 방법들을 이해할 수 있다.

  • 팀원들과 협업하여 가이드라인을 직접 작성하고 주어진 코퍼스를 이용해 데이터셋을 제작해볼 수 있다.

  • 직접 만든 관계 추출 태스크 데이터셋을 모델에 적용해보고 성능 검증을 해볼 수 있다.

Last updated