Day4 (9.30, 목)
baseline 코드에 추가적인 기본 세팅 진행하기
seed 값 설정
config 파일 적용
github 연동
단위테스트용 파일 만들기
데이터 검증하기
작업 결과물
1. 데이터 검증하기
아 Pandas를 좀 다시 공부하긴 해야겠다. 익숙하다고 자꾸 DB 쓰는게 맞는가 싶다.
Labeling 번역
no_relation
: 연관없음
-----------------------------------------------------------------------
[organization]
org:dissolved
: 지정된 조직이 해산된 날짜org:founded
: 지정된 조직이 설립된 날짜org:place_of_headqueaters
: 지정된 조직의 본부가 있는 장소(본사위치)org:alternate_names
: 지정된 조직을 참조하기 위해 사무실 이름 대신 호출되는 대체 이름org:member_of
: 지정된 조직이 속한 조직org:members
: 지정된 조직에 속한 조직org:political/religious_affiliation
: 지정된 조직이 소속된 정치/종교 단체org:product
: 특정 조직에서 생산한 제품 또는 상품org:founded_by
: 특정 조직을 설립한 사람 또는 조직org:top_members/employees
: 지정된 조직의 대표 또는 구성원org:number_of_employees/members
: 지정된 조직에 소속된 총 구성원 수
[person]
per:date_of_birth
: 지정된 사람이 태어난 날짜per:date_of_death
: 지정된 사람이 사망한 날짜per:place_of_birth
: 특정인이 사망한 날짜per:place_of_death
: 특정인이 사망한 장소per:place_of_residence
: 지정된 사람이 사는 곳per:origin
: 특정인의 출신 또는 국적per:employee_of
: 지정된 사람이 일하는 조직per:schools_attended
: 지정된 사람이 다녔던 학교per:alternate_names
: 지정된 사람을 지칭하기 위해 공식 이름 대신에 부르는 대체 이름per:parents
: 지정된 사람의 부모per:children
: 지정된 사람의 자녀per:siblings
: 특정인의 형제자매per:spouse
: 특정인의 배우자per:other_family
: 부모, 자녀, 형제자매 및 배우자를 제외한 특정인의 가족per:colleagues
: 지정된 사람과 함께 일하는 사람들per:product
: 특정인이 제작한 제품 또는 작품per:religion
: 특정인이 믿는 종교per:title
: 특정인의 직위를 나타내는 공식 또는 비공식 이름
데이터 인간지능을 활용해서 검증...
애매한 값이나 중복 값에 대해 검증 실시 -> 270개 처리 진행 8개 label 수정
32,470개를 모두 검증하는 것을 불가능할 것 같다...
subject와 object를 바꿔서 데이터 증강에 사용할만한 label값들
per.employee_of
<->org:number_of_employees/members
: 이미 데이터가 충분함org.member_of
<->org:members
per.parents
<->per.children
2. SEED 값 설정(seed=42)
동일한 학습결과 확인.
Last updated