Data 분석
Last updated
Last updated
육하원칙 요소 중 두 요소 이상을 포함하며 "누가"에 해당하는 내용을 알 수 있으면 한 문장으로 요약
대화문에 등장하는 키워드 2개 이상을 포함하여 한 문장으로 요약
하지만 데이터 셋을 보니 토론 데이터가 너무 적은 걸 확인할 수 있었다. (AI-Hub에 공유된 데이터지만, 이와 유사할 것으로 생각됨)
summary 데이터 기준으로 확인한 결과
자음, 모음만 나오는 경우 극소수 (의도적인것 + 오타)
한문, 외국어 극소수
기호가 나오는 경우는 꽤 있어서 포함시키는 것이 좋을 듯
약 46개의 데이터 존재 (아예 생략해도 괜찮을 듯...)
이름(#@이름#), 계정(#@계정#), 신원(#@신원#), 전번(#@전번#), 금융(#@금융#), 번호(#@번호#), 주소(#@주소#), 소속(#@소속#), 기타(#@기타#)
해당 데이터 스페셜 토큰으로 등록 필요
생성문장의 경우 80자로 제한을 두어도 괜찮을 것 같다.