TIL
  • Main
  • TIL : ML
    • AI News
      • AI-powered coding, free of charge with Colab
    • Paper
      • Retrieval-augmented generation for knowledge-intensive nlp tasks
        • reference 정리
      • Sequence to Sequence
    • Generative AI
      • LLM
        • 기본 개념
    • Boostcamp
      • Daily Report
        • 2021
          • 09
            • week4
            • week5
          • 10
            • week1
            • week2
            • week3
            • week4
          • 11
            • week1
            • week2
            • week3
            • week4
            • week5
          • 12
            • week1
            • week2
            • week3
      • Final Project
        • 프로젝트 기획
          • 🌟최종 프로젝트 기획
          • 최종 프로젝트 Version
          • 아이디어 수집
          • 욕설, 혐오발언 감지
          • 라이브 커머스 레포팅 프로젝트
        • 프로젝트 진행
          • week1
          • week2
          • week3
      • Competition
        • 1. [NLP] 문장 내 개체간 관계 추출
          • Day1 (9.27, 월)
          • Day2-3 (9.28~29, 화~수)
          • Day4 (9.30, 목)
          • Day5 (10.1, 금)
          • Day6~7 (10.2~3, 토~일)
          • Day8 (10.4, 월)
          • Day9 (10.5, 화)
          • Day10 (10.6, 수)
          • Day 11 (10.7 목)
        • 2. [NLP] MRC 프로젝트
          • Day1 (10.25, 월)
          • Day2 (10.26, 화)
          • Day3 (10.27, 수)
          • Day4-5 (10.28-29, 목-금)
          • Day6 (11.1, 월)
          • Day7 (11.2, 화)
          • Day8 (11.3, 수)
          • Day9 (11.4, 목)
        • 🔨3. [NLP] 데이터 제작
          • Day1
        • 🔨4. [공통] 모델 경량화
      • [U Stage] - DL basic
        • (01강) 딥러닝 기본 용어 설명 - Historical Review
        • (02강) 뉴럴 네트워크 - MLP (Multi-Layer Perceptron)
        • (03강) Optimization
        • 🔨(04강) Convolution은 무엇인가?
        • 🔨(05강) Modern CNN - 1x1 convolution의 중요성
        • 🔨(06강) Computer Vision Applications
        • (07강) Sequential Models - RNN
        • (08강) Sequential Models - Transformer
        • Page 2
      • [U Stage] - PyTorch
        • (01강) Introduction to PyTorch
        • (02강) PyTorch Basics
        • (03강) PyTorch 프로젝트 구조 이해하기
        • (04강) AutoGrad & Optimizer
        • (05강) Dataset & Dataloader
        • (06강) 모델 불러오기
        • (07강) Monitoring tools for PyTorch
        • (08강) Multi-GPU 학습
        • (09강) Hyperparameter Tuning
        • (10강) PyTorch Troubleshooting
      • [U Stage] - NLP
        • (01강) Introduction to NLP, Bag-of-Words
        • (02강) Word Embedding
        • (03강) Recurrent Neural Network and Language Modeling
        • (04강) LSTM and GRU
        • (05강) Sequence to Sequence with Attention
        • (06강) Beam Search and BLEU score
        • (07-08강) Transformer
        • (09강) Self-supervised Pre-training Models
      • [P Stage] - KLUE
        • (1강) 인공지능과 자연어 처리
        • (2강) 자연어의 전처리
        • (3강) BERT 언어모델 소개
        • (4강) 한국어 BERT 언어 모델 학습
        • (5강) BERT 기반 단일 문장 분류 모델 학습
        • (6강) BERT 기반 두 문장 관계 분류 모델 학습
        • (7강) BERT 언어모델 기반의 문장 토큰 분류
        • 오피스아워 (9.30, 목)
        • (8강) GPT 언어 모델
        • (9강) GPT 언어모델 기반의 자연어 생성
        • (10강) 최신 자연어처리 연구
      • [P Stage] - MRC
        • Before Study
        • (1강) MRC Intro & Python Basics
        • (2강) Extraction-based MRC
        • (3강) Generation-based MRC
        • (4강) Passage Retrieval - Sparse Embedding
        • (5강) Passage Retrieval - Dense Embedding
        • 오피스아워
        • (6강) Scaling up with FAISS
        • (7강) Linking MRC and Retrieval
        • (8강) Reducing Training Bias
        • (9강) Closed-book QA with T5
        • (10강) QA with Phrase Retrieval
        • 마스터클래스
      • [P Stage] - 데이터제작(NLP)
        • (1강) 데이터 제작의 A to Z
        • (2강) 자연어처리 데이터 기초
        • (3강) 자연어처리 데이터 소개 1
        • (4강) 자연어처리 데이터 소개 2
        • (5강) 원시 데이터의 수집과 가공
        • 오피스아워 (11.10, 수)
        • (6강) 데이터 구축 작업 설계
        • (7강) 데이터 구축 가이드라인 작성 기초
        • (8강) 관계 추출 과제의 이해
        • (9강) 관계 추출 관련 논문 읽기
        • (10강) 관계 추출 데이터 구축 실습
      • [P Stage] - 모델 최적화
        • (1강) 최적화 소개 및 강의 개요
        • (2강) 대회 및 데이터셋 소개
        • (3강) 작은 모델, 좋은 파라미터 찾기: AutoML 이론
        • 🔨(4강) 작은 모델, 좋은 파라미터 찾기: AutoML 실습
        • (5강) 작은 모델, 좋은 파라미터 찾기: Data Augmentation & AutoML 결과 분석
        • 🔨오피스아워 -Baseline 코드에 모듈 작성하기(신종선 멘토님)
      • [P Stage] - Product Serving
        • Part 1: Product Serving 개론
          • 1.1 강의 진행 방식
          • 1.2 MLOps 개론
          • 1.3 Model Serving
          • 1.4 머신러닝 프로젝트 라이프 사이클
        • Part 2: 프로토타입부터 점진적으로 개선하기
          • 2.1 프로토타이핑 - Notebook 베이스(Voila)
          • 2.2 프로토타이핑 - 웹 서비스 형태(Streamlit)
          • 2.3 Linux & Shell Command
          • 2.4 Cloud
          • 2.5 Github Action을 활용한 CI/CD
        • Part 3: 더 완성화된 제품으로
          • 3.1.1 FastAPI
          • 3.1.2 Fast API
          • 3.1.3 Fast API
          • 3.2 Docker
          • 3.3 Logging
          • 3.4 MLFlow
        • Part 4: 심화 소재
          • 4.1 BentoML
          • 4.2 Airflow
          • 4.3 머신러닝 디자인 패턴
          • 4.4 앞으로 더 공부하면 좋을 내용
      • 특강
        • (특강) 김상훈 - 캐글 그랜드마스터의 노하우 대방출
        • (특강) 이활석 - 서비스 향 AI 모델 개발하기
        • (특강) 구종만 - AI + ML과 Quant Trading
        • (특강) 문지형 - 내가 만든 AI 모델은 합법일까, 불법일까
        • (특강) 이준엽 - Full Stack ML Engineer
        • (특강) 박은정 - AI 시대의 커리어 빌딩
        • (특강) 오혜연 - AI Ethics
    • Competition
      • (DACON)한국어 문장 관계 분류 경진대회
        • Day1(2.14, 월)
        • Day2(2.15, 화)
        • Day3(2.16, 수)
        • Day4(2.17, 목)
      • 2021 인공지능 데이터 활용 경진대회
        • 역량평가
          • Day1 (9.28, 화)
          • Day2 (9.29, 수)
          • Day3 (9.30, 목)
        • 예선
          • Data 분석
          • NSML
          • What We Have Done?
    • ETC
      • 인터뷰 대비
        • Computer Science
        • ML/DL
      • Poetry로 dependency 관리
        • window에서 설치하기
      • code block
      • 공부할 것 임시보관
      • Transformer to T5
      • Hugging Face Tutorial
        • Ch1. Transformer models
        • Ch2. Using Transformers
        • Ch3. Fine-tuning a model with the Trainer API
      • KLUE
      • Pandas
  • TIL : Ops
    • AWS
      • SageMaker
  • TIL : Computer (CS)
    • Error
      • TextEncodeInput must be Union[TextInputSequence, Tuple[InputSequence, InputSequence]]
    • Algorithm
      • Theory
      • Programmers
        • 기능개발
    • ETC
      • Github 커밋 히스토리 삭제
Powered by GitBook
On this page
  • 1. 질의응답 Question Answering
  • 1.1. SQuAD 1.0
  • 1.2. SQuAD 2.0
  • 2. 기계번역 Machine Translation
  • 2.1. WMT 데이터 셋
  • 3. 요약 Text Summarization
  • 3.1. CNN/Daily Mail
  • 4. 대화 Dialogue
  • 4.1. DSTC Dialog System Technology Challenges
  • 4.2. Wizard-of-oz
  • 4.3. UDC (Ubuntu Dialogue Corpus)
  • Further Thinking

Was this helpful?

  1. TIL : ML
  2. Boostcamp
  3. [P Stage] - 데이터제작(NLP)

(4강) 자연어처리 데이터 소개 2

Previous(3강) 자연어처리 데이터 소개 1Next(5강) 원시 데이터의 수집과 가공

Last updated 3 years ago

Was this helpful?

[Further Reading]

  • [Site]

  • [Site]

1. 질의응답 Question Answering

1.1. SQuAD 1.0

위키피디아 데이터를 기반으로 제작한 기계 독해 및 질의응답 데이터

  • 구축 대상 기사 추출

    위키피디아 상위 10,000 기사 중 500자 이하인 536 기사 무작위 추출

  • 크라우드 소싱을 통한 질의 응답 수집

    각 문단마다 다섯 개의 질문과 답변 수집

  • 추가 응답 수집

    평가를 통해서 각 질문 당 최소 두개의 추가적인 답변 수집.

    기사의 단락과 질문 노출 후 가장 짧은 대답 선택

1.2. SQuAD 2.0

  • 크라우드 소싱 플랫폼을 통한 대답하기 어려운 질문 수집 - UnAnswerable question을 추가함

    각 문단마다 각 문단만으로는 대답할 수 없는 다섯 개의 질문 생성

    적합한 질문을 25개 이하로 남김

  • 적합한 질문이 수집되지 않은 기사 삭제

  • 학습, 검증, 평가용 데이터 분할

2. 기계번역 Machine Translation

2.1. WMT 데이터 셋

  • 2014년부터 시행된 기계 번역학회에서 공개한 데이터셋 다국어 번역 데이터.

  • 두언어간의 말뭉치로 구성되어있음.

  • 뉴스, 바이오, 멀티 모달데이터 등이 제공됨.

3. 요약 Text Summarization

3.1. CNN/Daily Mail

  • 추상 요약 말뭉치.

  • 기사에 대해 사람이 직접 작성한 요약문이 Paired 됨

  • 학습데이터 286,817쌍 / 검증데이터 13,368쌍 / 평가데이터 11,487쌍 으로 구성

4. 대화 Dialogue

4.1. DSTC Dialog System Technology Challenges

  • DSTC1

    human-computer dialogs in the bus timetable domain

  • DSTC2 & DSTC3

    human-computer dialogs in the restaurant information domain

  • DSTC4 & DSTC5

    DSTC4 human-human dialogs in the tourist information domain

  • DSTC6 이후

    End-to-End Goal Oriented Dialog Learning, End-to-End Conversation Modeling, andDialogue Breakdown Detection로 확장

4.2. Wizard-of-oz

WoZ 방식으로 수집된 데이터셋이며 대화 상태 추적 데이터와 유사한 형태로 이루어짐

WoZ방식이란, 대화 수집 방식의 하나로, 참여자가 대화 시스템을 통해 대화를 하고 있다고 생각하게 한뒤 실제로는 실제 사람이 참여자의 발화에 맞추어 응답을 제시하고 대화를 이끌어내면서 데이터를 수집하는 방식

4.3. UDC (Ubuntu Dialogue Corpus)

우분투 플랫폼 포럼의 대화를 수집한 데이터

  • 100만개의 멀티 턴 대화로 구성

  • 700만개 이상의 발화와 1억개 이상의 단어가 포함

  • 특별히 레이블이 주석되지 않음

대화 상태 추적과 블로그 등에서 보이는 비구조적 상호작용의 특성을 모두 가지고 있음

Further Thinking

  • 작업자가 적극적이고, 구체적인 작업을 할 수 있도록 가이드라인을 잘 잡아주어야한다.

  • 각 Task에 알맞도록 데이터를 구축해야한다.

https://arxiv.org/pdf/1606.05250.pdf
https://arxiv.org/abs/1806.03822
https://github.com/abisee/cnn-dailymail
https://huggingface.co/datasets/woz_dialogue
https://arxiv.org/pdf/1506.08909v3.pdf
Hugging Face Dataset Hub
Papers with Code - NLP section
Tracking Progress in Natural Language ProcessingNLP-progress
LogoThe Stanford Question Answering Dataset
LogoACL Wiki
LogoPapers with Code - Search for lexical semanticpaperswithcode