TIL
  • Main
  • TIL : ML
    • AI News
      • AI-powered coding, free of charge with Colab
    • Paper
      • Retrieval-augmented generation for knowledge-intensive nlp tasks
        • reference 정리
      • Sequence to Sequence
    • Generative AI
      • LLM
        • 기본 개념
    • Boostcamp
      • Daily Report
        • 2021
          • 09
            • week4
            • week5
          • 10
            • week1
            • week2
            • week3
            • week4
          • 11
            • week1
            • week2
            • week3
            • week4
            • week5
          • 12
            • week1
            • week2
            • week3
      • Final Project
        • 프로젝트 기획
          • 🌟최종 프로젝트 기획
          • 최종 프로젝트 Version
          • 아이디어 수집
          • 욕설, 혐오발언 감지
          • 라이브 커머스 레포팅 프로젝트
        • 프로젝트 진행
          • week1
          • week2
          • week3
      • Competition
        • 1. [NLP] 문장 내 개체간 관계 추출
          • Day1 (9.27, 월)
          • Day2-3 (9.28~29, 화~수)
          • Day4 (9.30, 목)
          • Day5 (10.1, 금)
          • Day6~7 (10.2~3, 토~일)
          • Day8 (10.4, 월)
          • Day9 (10.5, 화)
          • Day10 (10.6, 수)
          • Day 11 (10.7 목)
        • 2. [NLP] MRC 프로젝트
          • Day1 (10.25, 월)
          • Day2 (10.26, 화)
          • Day3 (10.27, 수)
          • Day4-5 (10.28-29, 목-금)
          • Day6 (11.1, 월)
          • Day7 (11.2, 화)
          • Day8 (11.3, 수)
          • Day9 (11.4, 목)
        • 🔨3. [NLP] 데이터 제작
          • Day1
        • 🔨4. [공통] 모델 경량화
      • [U Stage] - DL basic
        • (01강) 딥러닝 기본 용어 설명 - Historical Review
        • (02강) 뉴럴 네트워크 - MLP (Multi-Layer Perceptron)
        • (03강) Optimization
        • 🔨(04강) Convolution은 무엇인가?
        • 🔨(05강) Modern CNN - 1x1 convolution의 중요성
        • 🔨(06강) Computer Vision Applications
        • (07강) Sequential Models - RNN
        • (08강) Sequential Models - Transformer
        • Page 2
      • [U Stage] - PyTorch
        • (01강) Introduction to PyTorch
        • (02강) PyTorch Basics
        • (03강) PyTorch 프로젝트 구조 이해하기
        • (04강) AutoGrad & Optimizer
        • (05강) Dataset & Dataloader
        • (06강) 모델 불러오기
        • (07강) Monitoring tools for PyTorch
        • (08강) Multi-GPU 학습
        • (09강) Hyperparameter Tuning
        • (10강) PyTorch Troubleshooting
      • [U Stage] - NLP
        • (01강) Introduction to NLP, Bag-of-Words
        • (02강) Word Embedding
        • (03강) Recurrent Neural Network and Language Modeling
        • (04강) LSTM and GRU
        • (05강) Sequence to Sequence with Attention
        • (06강) Beam Search and BLEU score
        • (07-08강) Transformer
        • (09강) Self-supervised Pre-training Models
      • [P Stage] - KLUE
        • (1강) 인공지능과 자연어 처리
        • (2강) 자연어의 전처리
        • (3강) BERT 언어모델 소개
        • (4강) 한국어 BERT 언어 모델 학습
        • (5강) BERT 기반 단일 문장 분류 모델 학습
        • (6강) BERT 기반 두 문장 관계 분류 모델 학습
        • (7강) BERT 언어모델 기반의 문장 토큰 분류
        • 오피스아워 (9.30, 목)
        • (8강) GPT 언어 모델
        • (9강) GPT 언어모델 기반의 자연어 생성
        • (10강) 최신 자연어처리 연구
      • [P Stage] - MRC
        • Before Study
        • (1강) MRC Intro & Python Basics
        • (2강) Extraction-based MRC
        • (3강) Generation-based MRC
        • (4강) Passage Retrieval - Sparse Embedding
        • (5강) Passage Retrieval - Dense Embedding
        • 오피스아워
        • (6강) Scaling up with FAISS
        • (7강) Linking MRC and Retrieval
        • (8강) Reducing Training Bias
        • (9강) Closed-book QA with T5
        • (10강) QA with Phrase Retrieval
        • 마스터클래스
      • [P Stage] - 데이터제작(NLP)
        • (1강) 데이터 제작의 A to Z
        • (2강) 자연어처리 데이터 기초
        • (3강) 자연어처리 데이터 소개 1
        • (4강) 자연어처리 데이터 소개 2
        • (5강) 원시 데이터의 수집과 가공
        • 오피스아워 (11.10, 수)
        • (6강) 데이터 구축 작업 설계
        • (7강) 데이터 구축 가이드라인 작성 기초
        • (8강) 관계 추출 과제의 이해
        • (9강) 관계 추출 관련 논문 읽기
        • (10강) 관계 추출 데이터 구축 실습
      • [P Stage] - 모델 최적화
        • (1강) 최적화 소개 및 강의 개요
        • (2강) 대회 및 데이터셋 소개
        • (3강) 작은 모델, 좋은 파라미터 찾기: AutoML 이론
        • 🔨(4강) 작은 모델, 좋은 파라미터 찾기: AutoML 실습
        • (5강) 작은 모델, 좋은 파라미터 찾기: Data Augmentation & AutoML 결과 분석
        • 🔨오피스아워 -Baseline 코드에 모듈 작성하기(신종선 멘토님)
      • [P Stage] - Product Serving
        • Part 1: Product Serving 개론
          • 1.1 강의 진행 방식
          • 1.2 MLOps 개론
          • 1.3 Model Serving
          • 1.4 머신러닝 프로젝트 라이프 사이클
        • Part 2: 프로토타입부터 점진적으로 개선하기
          • 2.1 프로토타이핑 - Notebook 베이스(Voila)
          • 2.2 프로토타이핑 - 웹 서비스 형태(Streamlit)
          • 2.3 Linux & Shell Command
          • 2.4 Cloud
          • 2.5 Github Action을 활용한 CI/CD
        • Part 3: 더 완성화된 제품으로
          • 3.1.1 FastAPI
          • 3.1.2 Fast API
          • 3.1.3 Fast API
          • 3.2 Docker
          • 3.3 Logging
          • 3.4 MLFlow
        • Part 4: 심화 소재
          • 4.1 BentoML
          • 4.2 Airflow
          • 4.3 머신러닝 디자인 패턴
          • 4.4 앞으로 더 공부하면 좋을 내용
      • 특강
        • (특강) 김상훈 - 캐글 그랜드마스터의 노하우 대방출
        • (특강) 이활석 - 서비스 향 AI 모델 개발하기
        • (특강) 구종만 - AI + ML과 Quant Trading
        • (특강) 문지형 - 내가 만든 AI 모델은 합법일까, 불법일까
        • (특강) 이준엽 - Full Stack ML Engineer
        • (특강) 박은정 - AI 시대의 커리어 빌딩
        • (특강) 오혜연 - AI Ethics
    • Competition
      • (DACON)한국어 문장 관계 분류 경진대회
        • Day1(2.14, 월)
        • Day2(2.15, 화)
        • Day3(2.16, 수)
        • Day4(2.17, 목)
      • 2021 인공지능 데이터 활용 경진대회
        • 역량평가
          • Day1 (9.28, 화)
          • Day2 (9.29, 수)
          • Day3 (9.30, 목)
        • 예선
          • Data 분석
          • NSML
          • What We Have Done?
    • ETC
      • 인터뷰 대비
        • Computer Science
        • ML/DL
      • Poetry로 dependency 관리
        • window에서 설치하기
      • code block
      • 공부할 것 임시보관
      • Transformer to T5
      • Hugging Face Tutorial
        • Ch1. Transformer models
        • Ch2. Using Transformers
        • Ch3. Fine-tuning a model with the Trainer API
      • KLUE
      • Pandas
  • TIL : Ops
    • AWS
      • SageMaker
  • TIL : Computer (CS)
    • Error
      • TextEncodeInput must be Union[TextInputSequence, Tuple[InputSequence, InputSequence]]
    • Algorithm
      • Theory
      • Programmers
        • 기능개발
    • ETC
      • Github 커밋 히스토리 삭제
Powered by GitBook
On this page
  • 1. Before Finding Ideas
  • 2. 다양한 아이디어 제시
  • 2.1. 상대방 의도 파악 감성분석
  • 2.2. 감성분석을 활용한 여론 조사
  • 2.3. 대화요약 Task

Was this helpful?

  1. TIL : ML
  2. Boostcamp
  3. Final Project
  4. 프로젝트 기획

아이디어 수집

Previous최종 프로젝트 VersionNext욕설, 혐오발언 감지

Last updated 3 years ago

Was this helpful?

프로젝트에 진행할 아이디어를 수집하고, 임시로 구현 계획을 세워본다.

1. Before Finding Ideas

우선 아이디어를 생각하고 자료를 수집하기 전에 새워두어야 할 것들을 정해보자.

  • 손쉽게 데이터를 구할 수 있을 것!

    하고자하는 것이 데이터 수집이 중점적인 것이 아니라, 모델링과 서빙하는 과정이라고 생각된다.

  • 12월 중순까지 완료할 수 있을 것!

    작업에 소요되는 시간을 고려해서 주제를 선정하여야 한다. 분명 중간중간 헤매는 구간이 있을 것이다.

  • 우리의 작업을 잘 드러낼 수 있을 것!

    프로젝트를 발표함에 있어 사용한 기술과 아이디어를 잘 설명할 수 있는 아이템을 선정할 것!

  • 재미있을 것!

    아무래도 재미가 없으면 진행하는 속도나 몰입이 더딜것 같다. 흥미를 가질만한 주제를 선정해보자.

그 다음으로는 우리가 실제로 사용할 수 있는 데이터 셋의 종류나 이미 해본 Task나 알려진 Task들에 대해 생각해보자.

  • 대화문 + 요약 데이터 셋 (훈민정음 대회 당시 사용한 AI-Hub 데이터)

  • KLUE 데이터 셋

    • 사용해도 되는지 잘 모르겠음...

  • SNS나 뉴스 기사의 경우 저작권 문제가 있을 것으로 생각됨..

  • 공공 데이터

    • 라벨링 작업이 필요할 것으로 생각됨... 공수가 너무 많이 들지 않을까?

  • NSMC 네이버 영화 댓글 감정분석

해볼 만한 테스크에 대한 정보

  • 분류

  • 감정분석

  • 챗봇

  • 문서 요약

  • 텍스트 생성

  • Question-Answering

2. 다양한 아이디어 제시

2.1. 상대방 의도 파악 감성분석

1. 아이디어 간단 설명

상사나 애인들과의 카톡 내용을 토대로 상대방에게 숨겨진 의중을 파악하거나 현재 감정상태를 추측할 수 있도록 하는 서비스

2. 데이터 셋

AI-Hub에서 구할 수 있는 대화문 데이터 셋 활용.

3. 프로젝트 상세

  1. 대화 리스트를 선 입력으로 하여 화자의 성향과 유사한 대화문을 추출

  2. 질문이나 대화를 통해 감정상태나 의중에 대해 파악 + 추천 멘트 생성

4. 기타 필요사항

  • Target: 일반 사용자

  • 문제사항으로는 단순 대화데이터를 원하는 형식의 데이터를 얻을 수 있을지 잘 모르겠다.

2.2. 감성분석을 활용한 여론 조사

1. 아이디어 간단 설명

여기서는 단순하게 #민트초코 를 활용하여 SNS 코멘트나 글을 작성한사람이 긍정적인지 부정적인지를 판별하여 통계화 하였다. 여기서 나아가 다양한 감성으로 데이터를 구축한다면, 평소 다른사람들은 어떻게 생각하는지 궁금하던 것들에 대해 정보를 얻을 수 있지 않을까?

2. 데이터 셋

AI-hub 감성 상태 데이터 + SNS 크롤링

3. 프로젝트 상세

다양한 주제에 대해 질문을 받고 통계 데이터를 추출하기 위해서는 실시간 크롤링 작업이 필요할 것으로 보인다. 하지만 크롤링으로 충분한 데이터를 수집하려면 실시간은 불가능할 것으로 판단. 여러 여론 조사 매체에서 필요로 할 만한 주제를 선정해야할 것이다.

  1. 궁금한 내용을 입력 (ex. 아이폰13에 대한 반응이 어때?)

  2. 아이폰13 에 대한 정보를 수집 (SNS 크롤링)

  3. 해당 데이터로부터 긍부정 혹은 다양한 감성분석 실시

  4. 나온 결측치를 시각적으로 표현

4. 기타 필요사항

  • SNS 데이터에 대한 저작권 문제 확인 필요.

  • 크롤링에 소요되는 시간에 대한 고려 필요.

  • SNS 사이트에서 발생하는 Bias에 대한 고려 필요.

  • 글을 작성하는 사람의 심리에 대한 고려 필요.

    (ex. 도메인에 따라 긍정에 대한 게시글을 작성하는 경우가 많다. (나는 민트초코가 좋아! -> 싫어하는 사람이 굳이 저런 글을 작성할까??))

2.3. 대화요약 Task

1. 아이디어 간단 설명

현재 진행하고 있는 훈민정음의 주제를 메인 프로젝트로 잡고 진행해도 괜찮을 것 같다고 생각이 들었다.

2. 데이터 셋

AI-Hub에서 제공하는 대화요약 데이터 셋

3. 프로젝트 상세

대화 데이터를 통해 대화의 내용을 요약한다.

4. 기타 필요사항

  • 프로젝트에 대한 명확한 목표와 데이터가 존재하여 구현에 대해 수월할 수 있을것 같다.

  • 보다 다양한 Task에 대한 경험을 하지 못할 수 있다.

    • 이미 시도해보고자 하는 여러 기술들 외에 적용해볼만한 것이 한정적일 수 있다.

감성 분석 모델 (효석님 제공)링크 :

https://aihub.or.kr/aihub-data/natural-language/about
https://klue-benchmark.com/tasks
https://www.data.go.kr/tcs/eds/idt/selectIssueDataList.do
https://github.com/e9t/nsmc/
https://github.com/monologg/GoEmotions-Korean
https://www.youtube.com/watch?v=QTgRNer2epE
예선