(7강) BERT 언어모델 기반의 문장 토큰 분류

각 토큰에 대한 라벨을 예측하는 분류 모델 POS-tagging, NER에서 활용 됨.

[Reference]

개체명 인식 1. Named Entity Recognition (NER) for Turkish with BERT

QA 1. lonformer_qa_training.ipynb 2. [논문리뷰] Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

BERT seq2seq 1. BERT2BERT_for_CNN_Dailymail.ipynb 2. Bert2Bert Summarization

1. 문장 토큰 분류 task소개

1.1. 문장 토큰 분류 task

주어진 문장의 각 token이 어떤 범주에 속하는지 분류하는 task

Named Entity Recognition (NER)

개체명 인식은 문맥을 파악해서 인명, 지명 등의 분류를 하는 Task

POS Tagging (Part of speech tagging, 품사 태깅)

1.2. 문장 Token 분류를 위한 데이터

kor_ ner

  • 한국 해양대학교 자연어 처리 연구실에서 공개한 한국어 NER 데이터

2. 문장 토큰 분류 모델 학습 실습

2.1. 문장 토큰 분류 모델 학

  • 특히 한국어를 토큰화할때는 음절단위로 하는것을 추천한다.

Last updated