TIL
  • Main
  • TIL : ML
    • AI News
      • AI-powered coding, free of charge with Colab
    • Paper
      • Retrieval-augmented generation for knowledge-intensive nlp tasks
        • reference 정리
      • Sequence to Sequence
    • Generative AI
      • LLM
        • 기본 개념
    • Boostcamp
      • Daily Report
        • 2021
          • 09
            • week4
            • week5
          • 10
            • week1
            • week2
            • week3
            • week4
          • 11
            • week1
            • week2
            • week3
            • week4
            • week5
          • 12
            • week1
            • week2
            • week3
      • Final Project
        • 프로젝트 기획
          • 🌟최종 프로젝트 기획
          • 최종 프로젝트 Version
          • 아이디어 수집
          • 욕설, 혐오발언 감지
          • 라이브 커머스 레포팅 프로젝트
        • 프로젝트 진행
          • week1
          • week2
          • week3
      • Competition
        • 1. [NLP] 문장 내 개체간 관계 추출
          • Day1 (9.27, 월)
          • Day2-3 (9.28~29, 화~수)
          • Day4 (9.30, 목)
          • Day5 (10.1, 금)
          • Day6~7 (10.2~3, 토~일)
          • Day8 (10.4, 월)
          • Day9 (10.5, 화)
          • Day10 (10.6, 수)
          • Day 11 (10.7 목)
        • 2. [NLP] MRC 프로젝트
          • Day1 (10.25, 월)
          • Day2 (10.26, 화)
          • Day3 (10.27, 수)
          • Day4-5 (10.28-29, 목-금)
          • Day6 (11.1, 월)
          • Day7 (11.2, 화)
          • Day8 (11.3, 수)
          • Day9 (11.4, 목)
        • 🔨3. [NLP] 데이터 제작
          • Day1
        • 🔨4. [공통] 모델 경량화
      • [U Stage] - DL basic
        • (01강) 딥러닝 기본 용어 설명 - Historical Review
        • (02강) 뉴럴 네트워크 - MLP (Multi-Layer Perceptron)
        • (03강) Optimization
        • 🔨(04강) Convolution은 무엇인가?
        • 🔨(05강) Modern CNN - 1x1 convolution의 중요성
        • 🔨(06강) Computer Vision Applications
        • (07강) Sequential Models - RNN
        • (08강) Sequential Models - Transformer
        • Page 2
      • [U Stage] - PyTorch
        • (01강) Introduction to PyTorch
        • (02강) PyTorch Basics
        • (03강) PyTorch 프로젝트 구조 이해하기
        • (04강) AutoGrad & Optimizer
        • (05강) Dataset & Dataloader
        • (06강) 모델 불러오기
        • (07강) Monitoring tools for PyTorch
        • (08강) Multi-GPU 학습
        • (09강) Hyperparameter Tuning
        • (10강) PyTorch Troubleshooting
      • [U Stage] - NLP
        • (01강) Introduction to NLP, Bag-of-Words
        • (02강) Word Embedding
        • (03강) Recurrent Neural Network and Language Modeling
        • (04강) LSTM and GRU
        • (05강) Sequence to Sequence with Attention
        • (06강) Beam Search and BLEU score
        • (07-08강) Transformer
        • (09강) Self-supervised Pre-training Models
      • [P Stage] - KLUE
        • (1강) 인공지능과 자연어 처리
        • (2강) 자연어의 전처리
        • (3강) BERT 언어모델 소개
        • (4강) 한국어 BERT 언어 모델 학습
        • (5강) BERT 기반 단일 문장 분류 모델 학습
        • (6강) BERT 기반 두 문장 관계 분류 모델 학습
        • (7강) BERT 언어모델 기반의 문장 토큰 분류
        • 오피스아워 (9.30, 목)
        • (8강) GPT 언어 모델
        • (9강) GPT 언어모델 기반의 자연어 생성
        • (10강) 최신 자연어처리 연구
      • [P Stage] - MRC
        • Before Study
        • (1강) MRC Intro & Python Basics
        • (2강) Extraction-based MRC
        • (3강) Generation-based MRC
        • (4강) Passage Retrieval - Sparse Embedding
        • (5강) Passage Retrieval - Dense Embedding
        • 오피스아워
        • (6강) Scaling up with FAISS
        • (7강) Linking MRC and Retrieval
        • (8강) Reducing Training Bias
        • (9강) Closed-book QA with T5
        • (10강) QA with Phrase Retrieval
        • 마스터클래스
      • [P Stage] - 데이터제작(NLP)
        • (1강) 데이터 제작의 A to Z
        • (2강) 자연어처리 데이터 기초
        • (3강) 자연어처리 데이터 소개 1
        • (4강) 자연어처리 데이터 소개 2
        • (5강) 원시 데이터의 수집과 가공
        • 오피스아워 (11.10, 수)
        • (6강) 데이터 구축 작업 설계
        • (7강) 데이터 구축 가이드라인 작성 기초
        • (8강) 관계 추출 과제의 이해
        • (9강) 관계 추출 관련 논문 읽기
        • (10강) 관계 추출 데이터 구축 실습
      • [P Stage] - 모델 최적화
        • (1강) 최적화 소개 및 강의 개요
        • (2강) 대회 및 데이터셋 소개
        • (3강) 작은 모델, 좋은 파라미터 찾기: AutoML 이론
        • 🔨(4강) 작은 모델, 좋은 파라미터 찾기: AutoML 실습
        • (5강) 작은 모델, 좋은 파라미터 찾기: Data Augmentation & AutoML 결과 분석
        • 🔨오피스아워 -Baseline 코드에 모듈 작성하기(신종선 멘토님)
      • [P Stage] - Product Serving
        • Part 1: Product Serving 개론
          • 1.1 강의 진행 방식
          • 1.2 MLOps 개론
          • 1.3 Model Serving
          • 1.4 머신러닝 프로젝트 라이프 사이클
        • Part 2: 프로토타입부터 점진적으로 개선하기
          • 2.1 프로토타이핑 - Notebook 베이스(Voila)
          • 2.2 프로토타이핑 - 웹 서비스 형태(Streamlit)
          • 2.3 Linux & Shell Command
          • 2.4 Cloud
          • 2.5 Github Action을 활용한 CI/CD
        • Part 3: 더 완성화된 제품으로
          • 3.1.1 FastAPI
          • 3.1.2 Fast API
          • 3.1.3 Fast API
          • 3.2 Docker
          • 3.3 Logging
          • 3.4 MLFlow
        • Part 4: 심화 소재
          • 4.1 BentoML
          • 4.2 Airflow
          • 4.3 머신러닝 디자인 패턴
          • 4.4 앞으로 더 공부하면 좋을 내용
      • 특강
        • (특강) 김상훈 - 캐글 그랜드마스터의 노하우 대방출
        • (특강) 이활석 - 서비스 향 AI 모델 개발하기
        • (특강) 구종만 - AI + ML과 Quant Trading
        • (특강) 문지형 - 내가 만든 AI 모델은 합법일까, 불법일까
        • (특강) 이준엽 - Full Stack ML Engineer
        • (특강) 박은정 - AI 시대의 커리어 빌딩
        • (특강) 오혜연 - AI Ethics
    • Competition
      • (DACON)한국어 문장 관계 분류 경진대회
        • Day1(2.14, 월)
        • Day2(2.15, 화)
        • Day3(2.16, 수)
        • Day4(2.17, 목)
      • 2021 인공지능 데이터 활용 경진대회
        • 역량평가
          • Day1 (9.28, 화)
          • Day2 (9.29, 수)
          • Day3 (9.30, 목)
        • 예선
          • Data 분석
          • NSML
          • What We Have Done?
    • ETC
      • 인터뷰 대비
        • Computer Science
        • ML/DL
      • Poetry로 dependency 관리
        • window에서 설치하기
      • code block
      • 공부할 것 임시보관
      • Transformer to T5
      • Hugging Face Tutorial
        • Ch1. Transformer models
        • Ch2. Using Transformers
        • Ch3. Fine-tuning a model with the Trainer API
      • KLUE
      • Pandas
  • TIL : Ops
    • AWS
      • SageMaker
  • TIL : Computer (CS)
    • Error
      • TextEncodeInput must be Union[TextInputSequence, Tuple[InputSequence, InputSequence]]
    • Algorithm
      • Theory
      • Programmers
        • 기능개발
    • ETC
      • Github 커밋 히스토리 삭제
Powered by GitBook
On this page
  • 1. 데이터 제작의 단계
  • 1.1. 데이터 구축 과정
  • 2. AI 데이터 설계의 구성요소
  • 2.1. 데이터 설계
  • 3. 자연어 처리 데이터
  • Further Question

Was this helpful?

  1. TIL : ML
  2. Boostcamp
  3. [P Stage] - 데이터제작(NLP)

(1강) 데이터 제작의 A to Z

Previous[P Stage] - 데이터제작(NLP)Next(2강) 자연어처리 데이터 기초

Last updated 3 years ago

Was this helpful?

  • 강의 소개

  • 데이터 구축 프로세스와 설계의 기초 개념에 대해 설명

  • 자연어처리 데이터의 특징 및 종류에 대해 설명

1. 데이터 제작의 단계

실제로 AI 프로젝트에 소요되는 시간 비율로 보면 대부분이 데이터 관련 작업에 소요되는 시간이 약 80%로 높은 비중을 차지한다.

1.1. 데이터 구축 과정

  • 원시 데이터 선정 및 확보

    • 저작권, Task 적합성

  • 구축 및 가공 프로세스 확립

    • 구축 및 검수 절차, 작업자 선정

  • 구축 및 가공 지침 작성

    • 플랫폼 소통 및 작업자 교육

  • 데이터 구축 및 가공

    • 파일럿, 작업자 관리

  • 데이터 검수

    • 품질 평가 기준

    • 데이터 규격, 내용

2. AI 데이터 설계의 구성요소

  • 데이터 설계

    • 데이터 형식

    • 데이터 표상영역

  • 데이터 수집 - 각공 설계

    • 원천 데이터 수집방식: 전산화, 스크래핑, 작업자 작성, 모델생성

    • 주석작업: 전문가 구축, 크라우드 소

2.1. 데이터 설계

데이터의 유형

  • 소리: 신호처리, 음성인식 등

  • 텍스트: 자연어 처리

  • 이미지: 컴퓨터 비전

  • 영상: 영상처리

데이터의 Input / Output 형식

HTML, XML, CSV, TSV, TXT, JSON, JSONL, JPG, Jpeg, PDF, png, ocr, .wav, .mp3, .pcm, .script 등

데이터(train/dev/test)별 규모와 구분(split) 방식

  • 규모 선정에 필요한 정보 : 확보가능한 원시데이터의 규모, 주석작업 시간

  • 구분방식: 데이터별 비율과 기준 정하기(랜덤 vs 특정 조건)

    • 균형이 맞지않는 데이터인 경우가 많기때문에 구분을 위해 고려해야한다.

데이터 주석 유형: 자연어 처리

2.1.2. 데이터 수집 - 가공 설

  • 원시 데이터 수집 방식

    • 전산화, 스크래핑, 작업자 작성, 모델 생성: 적합한 데이터란 무엇인지 기준 세우기

  • 작업자 선정

    • 주석작업의 난이도와 구축규모에 맞는 작업자 선정 및 작업 관리

    • 전문가, 크라우드 소싱

  • 구축 및 검수 설계

    • 구축 작업의 난이도와 구축 규모, Task특성에 맞는 구축 및 검수 방식(전문가, IAA) 설계

    • 파일럿(10%) -> 본 구축 (최소한 100개정도의 샘플은 직접 확인할 것.)

    • 파일럿

      • 설계 시 발견하지 못한 이슈 발굴 및 해결

      • 가이드라인 보완 및 개정

      • 작업자 선정

    • 본 구축

      • 작업일정관리

      • 작업자 관리

      • 중간 검수를 통한 데이터 품질 관리

  • 데이터 검수 및 분석

    • 평가 지표 설정

      • 전문가 평가 및 분석

        • 샘플링 검사

        • 가이드라인 적합도 분석

      • 자동평가 및 분석

        • 데이터 형식

        • 레이블별 분포파악

        • 일괄수정 사항 반영

3. 자연어 처리 데이터

자연어란? 일상적으로 사용하고 있는 언어 그 자체를 의미한다. 반면 인공어는 여러 사람의 목적이나 의도에 따라 만든 언어 또는 컴퓨터 언어

자연어처리(NLP, Natural language processing)이란?

인공지능의 한분야, 사람의 언어를 컴퓨터가 알아듣도록 처리하는 인터페이스 역할. 자연어 이해 (NLU, Natural Language Understanding)와 자연어 생성(NLG, Natural Language Generation)으로 구성

컴퓨터가 사람의 언어를 이해하고 여러가지 문제를 수행할 수 있도록 하는 것이 목표이다.

자연어 처리와 관련된 연구 분야

데이터 분류 방식

  • 원천데이터 장르(도메인): 문어(뉴스, 도서 등), 구어(대화 등), 웹(메신저 대화, 게시판 등)

  • 과제의 유형

    • 자연어 이해(형태 분석, 구문분석, 문장 유사도 평가 등)

    • 자연어 생성(기계번역, 추상요약 등)

    • 혼합(챗봇 등)

자연어 처리 데이터를 만들 때는 복잡한 과제도 단순화하여 단계별로 구축

Further Question

  • 자연어 데이터와 다른 데이터를 구분짓는 특징은 무엇일까요?

  • 한국어 데이터의 제작 단계에서 어려운 점은 무엇이 있을까요?

    • 동음 이의어의 존재

    • 실제 맞춤법이 맞지 않아도 의미전달이 가능

    • 앞뒤 문장에 따라 의미가 달라질 수 있다. (비꼬는 내용 등)

https://bit/ly/2Y5e4R5/
https://gritmind.blog/2020/10/09/nlp_overview/