아이디어 수집
프로젝트에 진행할 아이디어를 수집하고, 임시로 구현 계획을 세워본다.
1. Before Finding Ideas
우선 아이디어를 생각하고 자료를 수집하기 전에 새워두어야 할 것들을 정해보자.
손쉽게 데이터를 구할 수 있을 것!
하고자하는 것이 데이터 수집이 중점적인 것이 아니라, 모델링과 서빙하는 과정이라고 생각된다.
12월 중순까지 완료할 수 있을 것!
작업에 소요되는 시간을 고려해서 주제를 선정하여야 한다. 분명 중간중간 헤매는 구간이 있을 것이다.
우리의 작업을 잘 드러낼 수 있을 것!
프로젝트를 발표함에 있어 사용한 기술과 아이디어를 잘 설명할 수 있는 아이템을 선정할 것!
재미있을 것!
아무래도 재미가 없으면 진행하는 속도나 몰입이 더딜것 같다. 흥미를 가질만한 주제를 선정해보자.
그 다음으로는 우리가 실제로 사용할 수 있는 데이터 셋의 종류나 이미 해본 Task나 알려진 Task들에 대해 생각해보자.
대화문 + 요약 데이터 셋 (훈민정음 대회 당시 사용한 AI-Hub 데이터)
SNS나 뉴스 기사의 경우 저작권 문제가 있을 것으로 생각됨..공공 데이터
https://www.data.go.kr/tcs/eds/idt/selectIssueDataList.do
라벨링 작업이 필요할 것으로 생각됨... 공수가 너무 많이 들지 않을까?
NSMC 네이버 영화 댓글 감정분석
해볼 만한 테스크에 대한 정보
분류
감정분석
챗봇
문서 요약
텍스트 생성
Question-Answering
2. 다양한 아이디어 제시
2.1. 상대방 의도 파악 감성분석
1. 아이디어 간단 설명
상사나 애인들과의 카톡 내용을 토대로 상대방에게 숨겨진 의중을 파악하거나 현재 감정상태를 추측할 수 있도록 하는 서비스
2. 데이터 셋
AI-Hub에서 구할 수 있는 대화문 데이터 셋 활용.
감성 분석 모델 (효석님 제공)링크 : https://github.com/monologg/GoEmotions-Korean
3. 프로젝트 상세
대화 리스트를 선 입력으로 하여 화자의 성향과 유사한 대화문을 추출
질문이나 대화를 통해 감정상태나 의중에 대해 파악 + 추천 멘트 생성
4. 기타 필요사항
Target: 일반 사용자
문제사항으로는 단순 대화데이터를 원하는 형식의 데이터를 얻을 수 있을지 잘 모르겠다.
2.2. 감성분석을 활용한 여론 조사
https://www.youtube.com/watch?v=QTgRNer2epE
1. 아이디어 간단 설명
여기서는 단순하게 #민트초코 를 활용하여 SNS 코멘트나 글을 작성한사람이 긍정적인지 부정적인지를 판별하여 통계화 하였다. 여기서 나아가 다양한 감성으로 데이터를 구축한다면, 평소 다른사람들은 어떻게 생각하는지 궁금하던 것들에 대해 정보를 얻을 수 있지 않을까?
2. 데이터 셋
AI-hub 감성 상태 데이터 + SNS 크롤링
3. 프로젝트 상세
다양한 주제에 대해 질문을 받고 통계 데이터를 추출하기 위해서는 실시간 크롤링 작업이 필요할 것으로 보인다. 하지만 크롤링으로 충분한 데이터를 수집하려면 실시간은 불가능할 것으로 판단. 여러 여론 조사 매체에서 필요로 할 만한 주제를 선정해야할 것이다.
궁금한 내용을 입력 (ex. 아이폰13에 대한 반응이 어때?)
아이폰13 에 대한 정보를 수집 (SNS 크롤링)
해당 데이터로부터 긍부정 혹은 다양한 감성분석 실시
나온 결측치를 시각적으로 표현
4. 기타 필요사항
SNS 데이터에 대한 저작권 문제 확인 필요.
크롤링에 소요되는 시간에 대한 고려 필요.
SNS 사이트에서 발생하는 Bias에 대한 고려 필요.
글을 작성하는 사람의 심리에 대한 고려 필요.
(ex. 도메인에 따라 긍정에 대한 게시글을 작성하는 경우가 많다. (나는 민트초코가 좋아! -> 싫어하는 사람이 굳이 저런 글을 작성할까??))
2.3. 대화요약 Task
1. 아이디어 간단 설명
현재 진행하고 있는 훈민정음의 주제를 메인 프로젝트로 잡고 진행해도 괜찮을 것 같다고 생각이 들었다.
예선2. 데이터 셋
AI-Hub에서 제공하는 대화요약 데이터 셋
3. 프로젝트 상세
대화 데이터를 통해 대화의 내용을 요약한다.
4. 기타 필요사항
프로젝트에 대한 명확한 목표와 데이터가 존재하여 구현에 대해 수월할 수 있을것 같다.
보다 다양한 Task에 대한 경험을 하지 못할 수 있다.
이미 시도해보고자 하는 여러 기술들 외에 적용해볼만한 것이 한정적일 수 있다.
Last updated