Day1
가이드 라인 및 relation mapping 제작하기
우선 우리가 선정한 주제 '암호화폐'와 관련하여 40개의 document가 주어지고, 그를 바탕으로 entity type을 지정하고 relation을 정하도록 하였습니다.
강의를 통해 배웠듯이 데이터 구축과정의 단계는 아래와 같다.
원시 데이터 선정 및 확보
저작권, Task 적합성
구축 및 가공 프로세스 확립
구축 및 검수 절차, 작업자 선정
구축 및 가공 지침 작성
플랫폼 소통 및 작업자 교육
데이터 구축 및 가공
파일럿, 작업자 관리
데이터 검수
품질 평가 기준
데이터 규격, 내용
이 중 원시데이터 선정 및 확보는 부스트캠프에서 주어졌고, 이 데이터를 바탕으로 구축, 가공 프로세스 확립과 지침을 작성하는 작업을 하는 단계이다.
주제가 '암호화폐'로 나에게는 익숙하지 않았던 내용들이었고, 다른 주제 예를 들어, 축구 등과같이 선수-소속팀, 감독, 역할 등 쉽게 생각할 수 있는 entity가 떠오르지 않았다...
너무 막연하게 생각하지 말고, 1차적으로 데이터를 통해 가능할 것 같은 entity를 선정하고, 내용을 취합하여 점차 수정해 나가는 것을 목표로 하였다.
1. Entity와 Relation 정하기
1.1. Entity와 Relation 기준 정하기
Entity와 Relation을 정하기에 앞서 선정에 대한 기준을 생각해보아야할 것 같았다.
Entity
Document에서 충분히 등장할 것.
도메인('암호화폐')에 대해서 설명할 수 있는 데이터를 선정하는게 좋음.
오피스아워를 통해 들은바로는 위 두가지를 참고해서 적절한 entity를 골라야할 것.
Relation
Entity와 마찬가지로 자주 등장하는 관계여야 학습이 되고, 추론이 가능해진다.
도메인과 관련이 있는 관계를 명명해야 의미있는 추론 작업이 될 수 있다.
1.2. Entity와 Relation 정하기
Entity
PER(사람), ITM(아이템), DAT(날짜), COM(일반)
PER(사람): 암호화폐 기술이나 코인을 만들 기술, 개발자
ITM(아이템): 암호화폐, 코인 등의 기타 아이템(명확한 기준이 잘 이루어져야할 것 같다)
DAT(날짜): 생성된 날짜, 폐기된 날짜 등
COM(일반): 그 외 일반적인 문구
Relation
tech => tech:birth_of
, tech:kind_of
, tech:created
, tech:create
item => item:birth_of
, item:kind_of
, item:created
, item:create
common => common:alternative_name
no_relation
Last updated