Data 분석

1. 데이터 분석

1.1. Summarization 기준

  • 육하원칙 요소 중 두 요소 이상을 포함하며 "누가"에 해당하는 내용을 알 수 있으면 한 문장으로 요약

  • 대화문에 등장하는 키워드 2개 이상을 포함하여 한 문장으로 요약

1.2. 대화 유형 분류

  • 하지만 데이터 셋을 보니 토론 데이터가 너무 적은 걸 확인할 수 있었다. (AI-Hub에 공유된 데이터지만, 이와 유사할 것으로 생각됨)

1.3. 이상 데이터 확인

summary 데이터 기준으로 확인한 결과

  • 자음, 모음만 나오는 경우 극소수 (의도적인것 + 오타)

  • 한문, 외국어 극소수

  • 기호가 나오는 경우는 꽤 있어서 포함시키는 것이 좋을 듯

  • 약 46개의 데이터 존재 (아예 생략해도 괜찮을 듯...)

1.4. 개인정보 비식별화를 위한 값

  • 이름(#@이름#), 계정(#@계정#), 신원(#@신원#), 전번(#@전번#), 금융(#@금융#), 번호(#@번호#), 주소(#@주소#), 소속(#@소속#), 기타(#@기타#)

    • 해당 데이터 스페셜 토큰으로 등록 필요

2. 데이터 분포

2.1. Summary 길

  • 생성문장의 경우 80자로 제한을 두어도 괜찮을 것 같다.

Last updated