CtrlK

(2강) 자연어의 전처리

데이터 전처리에 대해서

1. 자연어 전처리

원시데이터를 기계학습 모델이 학습하는데 적합하게 만드는 프로세스
학습에 사용될 데이터를 수집&가공하는 모든 프로세스

Task의 성능을 가장확실하게 올릴 수 있는 방법이다.

1.1. 자연어처리의 단계

Task설계
필요데이터 수집
통계학적 분석
- Token 개수 -> 아웃라이어 제거
- 빈도 확인 -> 사전 (dictionary) 정의
전처리
- 개행문자 제거, 특수문자 제거, 제목 제거 등등
Tagging
Tokenizing
- 어절
- 형태소
- WordPiece
모델설계
모델 구현
성능 평가
완료

1.2. Python String 관련 함수

2. 한국어 토큰화

토큰화 (Tokenizing)
- 주어진 데이터를 토큰이라 불리는 단위로 나누는 작업
- 토큰이 되는 기준은 다를 수 있음 (어절, 단어, 형태소, 음절, 자소 등)
문장 토큰화 (Sentence Tokenizing)
- 문장 분리
단어 토큰화 (Word Tokenizing)
- 구두점 분리, 단어 분리
- "Hello, World!" -> "Hello", ",", "World","!"

한국어의 경우 어절의 의미를 가지는 최소 단위인 형태소로 분리 ex) 안녕하세요 -> 안녕/NNG, 하/XSA, 세/EP, 요/EC

관련코드 Link

(2강) 자연어의 전처리 - 0_한국어전처리.ipynbGoogle Docs

(2강) 자연어의 전처리 - 1_한국어_토크나이징.ipynbGoogle Docs

Previous(1강) 인공지능과 자연어 처리 Next(3강) BERT 언어모델 소개

Last updated 3 years ago

Was this helpful?