(2강) 자연어처리 데이터 기초
Last updated
Was this helpful?
Last updated
Was this helpful?
데이터 제작 전반에 걸친 기초 개념을 정의한다.
주석 관련 용어, 텍스트 데이터의 단위 등을 정의
자연어처리 데이터의 형식에 대해 학습
말뭉치 류: 대화문, 기사, SNS, 댓글, 주석말뭉치, 요약 말뭉치 등
사전/데이터베이스 류: 온톨로지, 워드넷, 시소러스, 지식그래프 등
1950s: rule based
1990s: statistics based (단어기반, 문장기반)
2000s: machine learning based (지도학습, 비지도 학습, 강화학습)
Task와 데이터는 그대로 이며 기술적인 발전이 이루어 지고 있다.
벤치마크의 구성
텍스트 text
주석, 번역, 서문 및 부록 따위에 대한 본문이나 원문.
언어 문장보다 더 큰 문법 단위. 문장이 모여서 이루어진 한 덩어리의 글을 이룬다.
말뭉치 corpus, plural corpora
말뭉치: 어떤 기준으로든 한 덩어리로 볼 수 있는 말의 뭉치 (한 저작자의 저작 전부, 특정 분야 저작 전체)
텍스트 아카이브 text archive vs 말뭉치 corpus (selected, structured, designed)
데이터 data
정보 통신 컴퓨터가 처리할 수 있는 문자, 숫자, 소리, 그림 따위의 형태로 된 정보.
말뭉치 데이터 corpus data: 말뭉치 자체
말뭉치의 데이터 data from corpus: 용례 색인 결과, 연여 추출 결과, 통계 분석결과
주석
tag, label, annotation, tagging, labeling
형태소 분석기 vs 형태소 주석기: segmentation
💭token화 할 때 단위로 볼 수 있을듯.
영어 말뭉치의 계량단위: 단어(=띄어쓰기 단위) / 문장 또는 발화
한국어 말뭉치의 계량단위: 어절(=띄어쓰기 단위) / 문장 또는 발화
한국어의 "단어": 9품사로 분석됨(명사, 수사, 대명사, 동사, 형용사, 관형사, 부사, 조사, 감탄사) 이 중 "조사"는 체언(명사, 수사, 대명사)와 붙어서 사용되기 떄문에 띄어쓰기 단위와 단어의 단위가 일치하지 않게 된다. 또한, "어미"는 하나의 품사로 인정되지 않으며 형태 단위이므로 독립된 단어가 아님.
💭 한국어 NLP에서 쓰기 너무 복잡해 ㅠㅠ
품사: 단어를 문법적 성질의 공통성에 따라 몇 갈래로 묶어 놓은 것
품사 분류의 기준: 의미(뜻, meaning), 기능(구실, function), 형식(꼴, form)
토큰화 tokenizer > 표제어 추출 lemmatization / 품사 주석 POS(part of speech) tagging
Token: 언어를 다루는 가장 작은 기본 단위, 단어, 형태소, 서브워드
Type: 토큰의 대표 형태
연속된 N개 단위. 입력된 단위는 글자, 형태소, 단어, 어절등으로 사용자가 지정할 수 있다.
대표로 삼을 만큼 상징적인 것.
자연어 처리 분야에서 표현으로 번역하기도 하나, 자연어를 컴퓨터가 이해할 수 있는 기법으로 표시한다는 차원에서 표상이 더 적합하다. 표시를 통해 재현 과정을 통해 나타내는 작업.
사전학습모델(PLM), word2vec 등등
HTML(Hypertext Markup Language): 웹페이지
XML: 태그로 구분되어 사용
JSON: attribute-value 쌍으로 이루어져 있음
CSV, TSV
Kaggle, Dacon 등에서 볼수 있는 데이터를 참고 할 것.
Ai-hub 공공 데이터
[오픈 소스 + 벤치마크]
국내외 자연어 벤치마크에 포함된 과제(task)와 각각의 데이터는 어떻게 구성되어 있을까요?
한국어와 영어 데이터의 토큰화 및 표제어 추출에서 다른 특징은 무엇이 있나요?