(2강) 자연어처리 데이터 기초
Last updated
Last updated
데이터 제작 전반에 걸친 기초 개념을 정의한다.
주석 관련 용어, 텍스트 데이터의 단위 등을 정의
자연어처리 데이터의 형식에 대해 학습
말뭉치 류: 대화문, 기사, SNS, 댓글, 주석말뭉치, 요약 말뭉치 등
사전/데이터베이스 류: 온톨로지, 워드넷, 시소러스, 지식그래프 등
1950s: rule based
1990s: statistics based (단어기반, 문장기반)
2000s: machine learning based (지도학습, 비지도 학습, 강화학습)
Task와 데이터는 그대로 이며 기술적인 발전이 이루어 지고 있다.
벤치마크의 구성
텍스트 text
주석, 번역, 서문 및 부록 따위에 대한 본문이나 원문.
언어 문장보다 더 큰 문법 단위. 문장이 모여서 이루어진 한 덩어리의 글을 이룬다.
말뭉치 corpus, plural corpora
말뭉치: 어떤 기준으로든 한 덩어리로 볼 수 있는 말의 뭉치 (한 저작자의 저작 전부, 특정 분야 저작 전체)
텍스트 아카이브 text archive vs 말뭉치 corpus (selected, structured, designed)
데이터 data
정보 통신 컴퓨터가 처리할 수 있는 문자, 숫자, 소리, 그림 따위의 형태로 된 정보.
말뭉치 데이터 corpus data: 말뭉치 자체
말뭉치의 데이터 data from corpus: 용례 색인 결과, 연여 추출 결과, 통계 분석결과
주석
tag, label, annotation, tagging, labeling
형태소 분석기 vs 형태소 주석기: segmentation
💭token화 할 때 단위로 볼 수 있을듯.
영어 말뭉치의 계량단위: 단어(=띄어쓰기 단위) / 문장 또는 발화
한국어 말뭉치의 계량단위: 어절(=띄어쓰기 단위) / 문장 또는 발화
한국어의 "단어": 9품사로 분석됨(명사, 수사, 대명사, 동사, 형용사, 관형사, 부사, 조사, 감탄사) 이 중 "조사"는 체언(명사, 수사, 대명사)와 붙어서 사용되기 떄문에 띄어쓰기 단위와 단어의 단위가 일치하지 않게 된다. 또한, "어미"는 하나의 품사로 인정되지 않으며 형태 단위이므로 독립된 단어가 아님.
💭 한국어 NLP에서 쓰기 너무 복잡해 ㅠㅠ
품사: 단어를 문법적 성질의 공통성에 따라 몇 갈래로 묶어 놓은 것
품사 분류의 기준: 의미(뜻, meaning), 기능(구실, function), 형식(꼴, form)
토큰화 tokenizer > 표제어 추출 lemmatization / 품사 주석 POS(part of speech) tagging
Token: 언어를 다루는 가장 작은 기본 단위, 단어, 형태소, 서브워드
Type: 토큰의 대표 형태
연속된 N개 단위. 입력된 단위는 글자, 형태소, 단어, 어절등으로 사용자가 지정할 수 있다.
대표로 삼을 만큼 상징적인 것.
자연어 처리 분야에서 표현으로 번역하기도 하나, 자연어를 컴퓨터가 이해할 수 있는 기법으로 표시한다는 차원에서 표상이 더 적합하다. 표시를 통해 재현 과정을 통해 나타내는 작업.
사전학습모델(PLM), word2vec 등등
HTML(Hypertext Markup Language): 웹페이지
XML: 태그로 구분되어 사용
JSON: attribute-value 쌍으로 이루어져 있음
CSV, TSV
Kaggle, Dacon 등에서 볼수 있는 데이터를 참고 할 것.
Ai-hub 공공 데이터
[오픈 소스 + 벤치마크]
국내외 자연어 벤치마크에 포함된 과제(task)와 각각의 데이터는 어떻게 구성되어 있을까요?
한국어와 영어 데이터의 토큰화 및 표제어 추출에서 다른 특징은 무엇이 있나요?