[P Stage] - 데이터제작(NLP)
Last updated
Last updated
해당 강의를 통해 한국어 및 다른 언어에서의 자연어처리 데이터셋의 유형 및 포맷이 어떠한지, 그리고 데이터 셋을 구축하는 일반적인 프로세스가 무엇인지 학습하는 것을 목표로 한다. 또한 위키피디아 원시 말뭉치를 확용하여 직접 관계 추출 Task에 쓰이는 주석 코퍼스를 만들어 본다.
한국어 자연어 데이터의 언어론적 특징에 대해 배우고 데이터셋에 대한 이해도를 높인다.
자연어 데이터셋 제작에 활용되는 다양한 툴을 사용해볼 수 있다.
다수의 인원이 협업하여 제작한 데이터셋을 평가하는 방법들을 이해할 수 있다.
팀원들과 협업하여 가이드라인을 직접 작성하고 주어진 코퍼스를 이용해 데이터셋을 제작해볼 수 있다.
직접 만든 관계 추출 태스크 데이터셋을 모델에 적용해보고 성능 검증을 해볼 수 있다.