Day1

  • 가이드 라인 및 relation mapping 제작하기

우선 우리가 선정한 주제 '암호화폐'와 관련하여 40개의 document가 주어지고, 그를 바탕으로 entity type을 지정하고 relation을 정하도록 하였습니다.

강의를 통해 배웠듯이 데이터 구축과정의 단계는 아래와 같다.

  • 원시 데이터 선정 및 확보

    • 저작권, Task 적합성

  • 구축 및 가공 프로세스 확립

    • 구축 및 검수 절차, 작업자 선정

  • 구축 및 가공 지침 작성

    • 플랫폼 소통 및 작업자 교육

  • 데이터 구축 및 가공

    • 파일럿, 작업자 관리

  • 데이터 검수

    • 품질 평가 기준

    • 데이터 규격, 내용

이 중 원시데이터 선정 및 확보는 부스트캠프에서 주어졌고, 이 데이터를 바탕으로 구축, 가공 프로세스 확립과 지침을 작성하는 작업을 하는 단계이다.

주제가 '암호화폐'로 나에게는 익숙하지 않았던 내용들이었고, 다른 주제 예를 들어, 축구 등과같이 선수-소속팀, 감독, 역할 등 쉽게 생각할 수 있는 entity가 떠오르지 않았다...

너무 막연하게 생각하지 말고, 1차적으로 데이터를 통해 가능할 것 같은 entity를 선정하고, 내용을 취합하여 점차 수정해 나가는 것을 목표로 하였다.

1. Entity와 Relation 정하기

1.1. Entity와 Relation 기준 정하기

Entity와 Relation을 정하기에 앞서 선정에 대한 기준을 생각해보아야할 것 같았다.

Entity

  • Document에서 충분히 등장할 것.

  • 도메인('암호화폐')에 대해서 설명할 수 있는 데이터를 선정하는게 좋음.

  • 오피스아워를 통해 들은바로는 위 두가지를 참고해서 적절한 entity를 골라야할 것.

Relation

  • Entity와 마찬가지로 자주 등장하는 관계여야 학습이 되고, 추론이 가능해진다.

  • 도메인과 관련이 있는 관계를 명명해야 의미있는 추론 작업이 될 수 있다.

1.2. Entity와 Relation 정하기

Entity

PER(사람), ITM(아이템), DAT(날짜), COM(일반)

  • PER(사람): 암호화폐 기술이나 코인을 만들 기술, 개발자

  • ITM(아이템): 암호화폐, 코인 등의 기타 아이템(명확한 기준이 잘 이루어져야할 것 같다)

  • DAT(날짜): 생성된 날짜, 폐기된 날짜 등

  • COM(일반): 그 외 일반적인 문구

Relation

tech => tech:birth_of, tech:kind_of , tech:created , tech:create

item => item:birth_of, item:kind_of , item:created , item:create

common => common:alternative_name

no_relation

Last updated