(8강) 관계 추출 과제의 이해
관계 추출 과제에 대해 이해하기
개체명 인식과 개체명 연결이 어떻게 활용되는지 이해하기
[Further Reading]
TTA 한국어 개체명 태그셋 [Book]
한국해양대학교 개체명 태그셋 [Book]
Entity linking [Wikipedia]
1. 관계 추출 관련 과제의 개요
1.1. 개체명(Entity)인식 NER(Named Entity Recognition)
개체명이란 인명, 지명, 기관명 등과 같은 고유명사나 명사구를 의미. 개체명 인식 태스크는 문장을 분석 대상으로 삼아서 문장에 출현한 개체명의 경계를 인식하고 각 개체명에 해당하는 태그를 주석함.
[KLUE 관련 게시글을 참고하면 더 좋음]
현재 데이터 제작 프로젝트를 진행함에 있어서도 추출할 개체를 지정하고 있다. PER(사람), ITEM(아이템), ORG(기관), COMMON(기타), DAT(날짜) 등으로 지정하고 제작작업을 진행중.
1.2. 관계 추출(Relation Extract)
관계 추출을 개체명 쌍의 관계를 판별하는 Task이다. 마침 KLUE RE 대회를 진행했던 데이터로 해당 대회를 참고하면 좋을 것!
3. 데이터 제작시 문제점
2개 이상의 Tag로 주석될 수 있는 개체명
-> 맥락에 기반한 주석
주석 대상의 범주
구체적 범주 및 기준 명시
한국어 데이터 현실에 맞지 않는 주석
-> 태그 통폐합 및 추가
KB(Knowledge base) 의 활용
Summary
위에서 배운 NER, RE, EL은 기본적으로 비구조화된 텍스트에서 정보를 추출하여 구조화하려는 것이 목적이다. 이는 검색시스템, 챗봇 등에서 활용될 수 있다.
강의를 들으며 느끼는 점으로 오피스아워에서 본 강의에 대해 기본적인 정리가 잘 이루어져 있다고 생각이된다. 순서가 다소 어긋나서 이런 부분도 있지만 스페셜 미션을 진행하면서 직접 정리하는것이 더 잘 될 것이라고 생각이 된다.
Last updated