(2강) 자연어의 전처리

데이터 전처리에 대해서

1. 자연어 전처리

  • 원시데이터를 기계학습 모델이 학습하는데 적합하게 만드는 프로세스

  • 학습에 사용될 데이터를 수집&가공하는 모든 프로세스

Task의 성능을 가장확실하게 올릴 수 있는 방법이다.

1.1. 자연어처리의 단계

  1. Task설계

  2. 필요데이터 수집

  3. 통계학적 분석

    • Token 개수 -> 아웃라이어 제거

    • 빈도 확인 -> 사전 (dictionary) 정의

  4. 전처리

    • 개행문자 제거, 특수문자 제거, 제목 제거 등등

  5. Tagging

  6. Tokenizing

    • 어절

    • 형태소

    • WordPiece

  7. 모델설계

  8. 모델 구현

  9. 성능 평가

  10. 완료

1.2. Python String 관련 함수

2. 한국어 토큰화

  • 토큰화 (Tokenizing)

    • 주어진 데이터를 토큰이라 불리는 단위로 나누는 작업

    • 토큰이 되는 기준은 다를 수 있음 (어절, 단어, 형태소, 음절, 자소 등)

  • 문장 토큰화 (Sentence Tokenizing)

    • 문장 분리

  • 단어 토큰화 (Word Tokenizing)

    • 구두점 분리, 단어 분리

    • "Hello, World!" -> "Hello", ",", "World","!"

한국어의 경우 어절의 의미를 가지는 최소 단위인 형태소로 분리 ex) 안녕하세요 -> 안녕/NNG, 하/XSA, 세/EP, 요/EC

Last updated