(7강) BERT 언어모델 기반의 문장 토큰 분류

각 토큰에 대한 라벨을 예측하는 분류 모델 POS-tagging, NER에서 활용 됨.
[Reference]
개체명 인식 1. Named Entity Recognition (NER) for Turkish with BERT
QA 1. lonformer_qa_training.ipynb 2. [논문리뷰] Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
BERT seq2seq 1. BERT2BERT_for_CNN_Dailymail.ipynb 2. Bert2Bert Summarization

1. 문장 토큰 분류 task소개

1.1. 문장 토큰 분류 task

주어진 문장의 각 token이 어떤 범주에 속하는지 분류하는 task

Named Entity Recognition (NER)

개체명 인식은 문맥을 파악해서 인명, 지명 등의 분류를 하는 Task

POS Tagging (Part of speech tagging, 품사 태깅)

1.2. 문장 Token 분류를 위한 데이터

kor_ ner

한국 해양대학교 자연어 처리 연구실에서 공개한 한국어 NER 데이터

2. 문장 토큰 분류 모델 학습 실습

2.1. 문장 토큰 분류 모델 학

특히 한국어를 토큰화할때는 음절단위로 하는것을 추천한다.

실습 Link

(7강) BERT 기반 문장 토큰 분류 모델 학습 - 0_문장_토큰_단위_학습.ipynbGoogle Docs

(7강) BERT 기반 문장 토큰 분류 모델 학습 - 0_문장_토큰_단위_학습 (w_KLUE).ipynbGoogle Docs

(7강) BERT 기반 문장 토큰 분류 모델 학습 - 1_기계_독해_학습.ipynbGoogle Docs

(7강) BERT 기반 문장 토큰 분류 모델 학습 - 1_기계_독해_학습 (w_KLUE).ipynbGoogle Docs

Previous(6강) BERT 기반 두 문장 관계 분류 모델 학습 Next오피스아워 (9.30, 목)

Last updated 4 years ago