TIL
  • Main
  • TIL : ML
    • AI News
      • AI-powered coding, free of charge with Colab
    • Paper
      • Retrieval-augmented generation for knowledge-intensive nlp tasks
        • reference 정리
      • Sequence to Sequence
    • Generative AI
      • LLM
        • 기본 개념
    • Boostcamp
      • Daily Report
        • 2021
          • 09
            • week4
            • week5
          • 10
            • week1
            • week2
            • week3
            • week4
          • 11
            • week1
            • week2
            • week3
            • week4
            • week5
          • 12
            • week1
            • week2
            • week3
      • Final Project
        • 프로젝트 기획
          • 🌟최종 프로젝트 기획
          • 최종 프로젝트 Version
          • 아이디어 수집
          • 욕설, 혐오발언 감지
          • 라이브 커머스 레포팅 프로젝트
        • 프로젝트 진행
          • week1
          • week2
          • week3
      • Competition
        • 1. [NLP] 문장 내 개체간 관계 추출
          • Day1 (9.27, 월)
          • Day2-3 (9.28~29, 화~수)
          • Day4 (9.30, 목)
          • Day5 (10.1, 금)
          • Day6~7 (10.2~3, 토~일)
          • Day8 (10.4, 월)
          • Day9 (10.5, 화)
          • Day10 (10.6, 수)
          • Day 11 (10.7 목)
        • 2. [NLP] MRC 프로젝트
          • Day1 (10.25, 월)
          • Day2 (10.26, 화)
          • Day3 (10.27, 수)
          • Day4-5 (10.28-29, 목-금)
          • Day6 (11.1, 월)
          • Day7 (11.2, 화)
          • Day8 (11.3, 수)
          • Day9 (11.4, 목)
        • 🔨3. [NLP] 데이터 제작
          • Day1
        • 🔨4. [공통] 모델 경량화
      • [U Stage] - DL basic
        • (01강) 딥러닝 기본 용어 설명 - Historical Review
        • (02강) 뉴럴 네트워크 - MLP (Multi-Layer Perceptron)
        • (03강) Optimization
        • 🔨(04강) Convolution은 무엇인가?
        • 🔨(05강) Modern CNN - 1x1 convolution의 중요성
        • 🔨(06강) Computer Vision Applications
        • (07강) Sequential Models - RNN
        • (08강) Sequential Models - Transformer
        • Page 2
      • [U Stage] - PyTorch
        • (01강) Introduction to PyTorch
        • (02강) PyTorch Basics
        • (03강) PyTorch 프로젝트 구조 이해하기
        • (04강) AutoGrad & Optimizer
        • (05강) Dataset & Dataloader
        • (06강) 모델 불러오기
        • (07강) Monitoring tools for PyTorch
        • (08강) Multi-GPU 학습
        • (09강) Hyperparameter Tuning
        • (10강) PyTorch Troubleshooting
      • [U Stage] - NLP
        • (01강) Introduction to NLP, Bag-of-Words
        • (02강) Word Embedding
        • (03강) Recurrent Neural Network and Language Modeling
        • (04강) LSTM and GRU
        • (05강) Sequence to Sequence with Attention
        • (06강) Beam Search and BLEU score
        • (07-08강) Transformer
        • (09강) Self-supervised Pre-training Models
      • [P Stage] - KLUE
        • (1강) 인공지능과 자연어 처리
        • (2강) 자연어의 전처리
        • (3강) BERT 언어모델 소개
        • (4강) 한국어 BERT 언어 모델 학습
        • (5강) BERT 기반 단일 문장 분류 모델 학습
        • (6강) BERT 기반 두 문장 관계 분류 모델 학습
        • (7강) BERT 언어모델 기반의 문장 토큰 분류
        • 오피스아워 (9.30, 목)
        • (8강) GPT 언어 모델
        • (9강) GPT 언어모델 기반의 자연어 생성
        • (10강) 최신 자연어처리 연구
      • [P Stage] - MRC
        • Before Study
        • (1강) MRC Intro & Python Basics
        • (2강) Extraction-based MRC
        • (3강) Generation-based MRC
        • (4강) Passage Retrieval - Sparse Embedding
        • (5강) Passage Retrieval - Dense Embedding
        • 오피스아워
        • (6강) Scaling up with FAISS
        • (7강) Linking MRC and Retrieval
        • (8강) Reducing Training Bias
        • (9강) Closed-book QA with T5
        • (10강) QA with Phrase Retrieval
        • 마스터클래스
      • [P Stage] - 데이터제작(NLP)
        • (1강) 데이터 제작의 A to Z
        • (2강) 자연어처리 데이터 기초
        • (3강) 자연어처리 데이터 소개 1
        • (4강) 자연어처리 데이터 소개 2
        • (5강) 원시 데이터의 수집과 가공
        • 오피스아워 (11.10, 수)
        • (6강) 데이터 구축 작업 설계
        • (7강) 데이터 구축 가이드라인 작성 기초
        • (8강) 관계 추출 과제의 이해
        • (9강) 관계 추출 관련 논문 읽기
        • (10강) 관계 추출 데이터 구축 실습
      • [P Stage] - 모델 최적화
        • (1강) 최적화 소개 및 강의 개요
        • (2강) 대회 및 데이터셋 소개
        • (3강) 작은 모델, 좋은 파라미터 찾기: AutoML 이론
        • 🔨(4강) 작은 모델, 좋은 파라미터 찾기: AutoML 실습
        • (5강) 작은 모델, 좋은 파라미터 찾기: Data Augmentation & AutoML 결과 분석
        • 🔨오피스아워 -Baseline 코드에 모듈 작성하기(신종선 멘토님)
      • [P Stage] - Product Serving
        • Part 1: Product Serving 개론
          • 1.1 강의 진행 방식
          • 1.2 MLOps 개론
          • 1.3 Model Serving
          • 1.4 머신러닝 프로젝트 라이프 사이클
        • Part 2: 프로토타입부터 점진적으로 개선하기
          • 2.1 프로토타이핑 - Notebook 베이스(Voila)
          • 2.2 프로토타이핑 - 웹 서비스 형태(Streamlit)
          • 2.3 Linux & Shell Command
          • 2.4 Cloud
          • 2.5 Github Action을 활용한 CI/CD
        • Part 3: 더 완성화된 제품으로
          • 3.1.1 FastAPI
          • 3.1.2 Fast API
          • 3.1.3 Fast API
          • 3.2 Docker
          • 3.3 Logging
          • 3.4 MLFlow
        • Part 4: 심화 소재
          • 4.1 BentoML
          • 4.2 Airflow
          • 4.3 머신러닝 디자인 패턴
          • 4.4 앞으로 더 공부하면 좋을 내용
      • 특강
        • (특강) 김상훈 - 캐글 그랜드마스터의 노하우 대방출
        • (특강) 이활석 - 서비스 향 AI 모델 개발하기
        • (특강) 구종만 - AI + ML과 Quant Trading
        • (특강) 문지형 - 내가 만든 AI 모델은 합법일까, 불법일까
        • (특강) 이준엽 - Full Stack ML Engineer
        • (특강) 박은정 - AI 시대의 커리어 빌딩
        • (특강) 오혜연 - AI Ethics
    • Competition
      • (DACON)한국어 문장 관계 분류 경진대회
        • Day1(2.14, 월)
        • Day2(2.15, 화)
        • Day3(2.16, 수)
        • Day4(2.17, 목)
      • 2021 인공지능 데이터 활용 경진대회
        • 역량평가
          • Day1 (9.28, 화)
          • Day2 (9.29, 수)
          • Day3 (9.30, 목)
        • 예선
          • Data 분석
          • NSML
          • What We Have Done?
    • ETC
      • 인터뷰 대비
        • Computer Science
        • ML/DL
      • Poetry로 dependency 관리
        • window에서 설치하기
      • code block
      • 공부할 것 임시보관
      • Transformer to T5
      • Hugging Face Tutorial
        • Ch1. Transformer models
        • Ch2. Using Transformers
        • Ch3. Fine-tuning a model with the Trainer API
      • KLUE
      • Pandas
  • TIL : Ops
    • AWS
      • SageMaker
  • TIL : Computer (CS)
    • Error
      • TextEncodeInput must be Union[TextInputSequence, Tuple[InputSequence, InputSequence]]
    • Algorithm
      • Theory
      • Programmers
        • 기능개발
    • ETC
      • Github 커밋 히스토리 삭제
Powered by GitBook
On this page
  • 1. 원시데이터의 정의
  • 2. 수집시 검토사항
  • 2.1. 수집 절차
  • 2.2. 원시 텍스트데이터의 종류
  • 2.3. 원시 텍스트 데이터의 메타정보
  • 2.4. 원시 데이터 수집시 고려사항
  • 3. 원시 데이터 전처리
  • 4. 원시데이터의 가공 - 주석도구
  • 4.1. 주석(annotation, labeling)
  • 4.2. 다양한 도구

Was this helpful?

  1. TIL : ML
  2. Boostcamp
  3. [P Stage] - 데이터제작(NLP)

(5강) 원시 데이터의 수집과 가공

Previous(4강) 자연어처리 데이터 소개 2Next오피스아워 (11.10, 수)

Last updated 3 years ago

Was this helpful?

  • 원시데이터의 의미를 이해하고 분류 및 형태에 대해 알아본다.

  • 데이터 수집 시 고려할 사항 및 원시 데이터의 전처리 과정에 대해 알아본다.

    • 수집 가능성, 법적문제 여부

    • 말뭉치 정제 및 비식별화 등에 대해 알아본다.

  • 원시 데이터를 가공할 수 있는 주석 도구들의 종류에 대해 알아본다.

Further Reading

  • [Blog]

  • [Site]

  • [Book]

1. 원시데이터의 정의

과제를 해결하기 위해 특정 도메인, 장르, 주제에 대하여 주건에 맞춰 수집한 데이터를 의미, 주석이나 전처리가 이루어 지지 않은 날것의 데이터

2. 수집시 검토사항

2.1. 수집 절차

2.2. 원시 텍스트데이터의 종류

원시 텍스트 데이터 사용역(장르)에 따른 분류

  • 문어

    신문기사, 소설, 수필, 논문, 잡지, 보고서 등

  • 구어(음성파일을 텍스트로 전사)

    일상대화, 연설, 강연 + 준구어(방송대본, 영화대본)

  • 웹

    SNS, 커뮤니티 게시판, 메신저 대화, 블로그, 이메일 등

2.3. 원시 텍스트 데이터의 메타정보

텍스트 외에 텍스트에 대한 정보로 매체 정보, 출처, 형태 등을 정해진 양식에 맞춰 기록

2.4. 원시 데이터 수집시 고려사항

  • 획득 가능성

    • 획득 가능여부와 주기를 고려

    • 가공처리에 많은 비용이 소비되는지 확인

    • 트래픽량, 저장용량 등을 고려

  • 데이터 균형과 다양성

    • 개체의 다양성, 목적 및 상황의 다양성, 시간, 종류, 사람, 지역별 다양성

  • 신뢰성

  • 법적 문제 확인

    • 개인정보 등에 대한 법적 문제를 고려한 기술적 절차를 거친 데이터의 활

3. 원시 데이터 전처리

  • 추출 대상 확인

    • 메타 정보

    • 주석 대상 텍스트

  • 정제 대상 확인

    • 숫자, 외국어, 기호, 이모지

    • 띄어쓰기, 맞춤법, 오탈자

    • 개인정보

    • 문장 분리

  • 불필요한 요소 제거 및 변환

    • 개인정보 비식별화

    • 비윤리적 표현 정제

4. 원시데이터의 가공 - 주석도구

4.1. 주석(annotation, labeling)

원시 데이터를 가공하여 원하는 정보를 부착하는 작업. 텍스트를 단순히 분류하여(긍부정, 주제 등) 해당 분류를 텍스트에 삽입하거나 직접 문자열에 주석할 수 있음.

4.2. 다양한 도구

  • 스프레드 시트

  • 구글 폼

  • Brat

  • Doccano

  • Tagtog

그때그때 알맞는 도구를 찾아서 활용하는 것이 좋을 것 같다.

(특강) 문지형 - 내가 만든 AI 모델은 합법일까, 불법일까
나만의 웹 크롤러 만들기 시리즈
다양한 분야의 개인정보보호 가이드라인
AI HUB 데이터 구축 및 활용 가이드라인