TIL
  • Main
  • TIL : ML
    • AI News
      • AI-powered coding, free of charge with Colab
    • Paper
      • Retrieval-augmented generation for knowledge-intensive nlp tasks
        • reference 정리
      • Sequence to Sequence
    • Generative AI
      • LLM
        • 기본 개념
    • Boostcamp
      • Daily Report
        • 2021
          • 09
            • week4
            • week5
          • 10
            • week1
            • week2
            • week3
            • week4
          • 11
            • week1
            • week2
            • week3
            • week4
            • week5
          • 12
            • week1
            • week2
            • week3
      • Final Project
        • 프로젝트 기획
          • 🌟최종 프로젝트 기획
          • 최종 프로젝트 Version
          • 아이디어 수집
          • 욕설, 혐오발언 감지
          • 라이브 커머스 레포팅 프로젝트
        • 프로젝트 진행
          • week1
          • week2
          • week3
      • Competition
        • 1. [NLP] 문장 내 개체간 관계 추출
          • Day1 (9.27, 월)
          • Day2-3 (9.28~29, 화~수)
          • Day4 (9.30, 목)
          • Day5 (10.1, 금)
          • Day6~7 (10.2~3, 토~일)
          • Day8 (10.4, 월)
          • Day9 (10.5, 화)
          • Day10 (10.6, 수)
          • Day 11 (10.7 목)
        • 2. [NLP] MRC 프로젝트
          • Day1 (10.25, 월)
          • Day2 (10.26, 화)
          • Day3 (10.27, 수)
          • Day4-5 (10.28-29, 목-금)
          • Day6 (11.1, 월)
          • Day7 (11.2, 화)
          • Day8 (11.3, 수)
          • Day9 (11.4, 목)
        • 🔨3. [NLP] 데이터 제작
          • Day1
        • 🔨4. [공통] 모델 경량화
      • [U Stage] - DL basic
        • (01강) 딥러닝 기본 용어 설명 - Historical Review
        • (02강) 뉴럴 네트워크 - MLP (Multi-Layer Perceptron)
        • (03강) Optimization
        • 🔨(04강) Convolution은 무엇인가?
        • 🔨(05강) Modern CNN - 1x1 convolution의 중요성
        • 🔨(06강) Computer Vision Applications
        • (07강) Sequential Models - RNN
        • (08강) Sequential Models - Transformer
        • Page 2
      • [U Stage] - PyTorch
        • (01강) Introduction to PyTorch
        • (02강) PyTorch Basics
        • (03강) PyTorch 프로젝트 구조 이해하기
        • (04강) AutoGrad & Optimizer
        • (05강) Dataset & Dataloader
        • (06강) 모델 불러오기
        • (07강) Monitoring tools for PyTorch
        • (08강) Multi-GPU 학습
        • (09강) Hyperparameter Tuning
        • (10강) PyTorch Troubleshooting
      • [U Stage] - NLP
        • (01강) Introduction to NLP, Bag-of-Words
        • (02강) Word Embedding
        • (03강) Recurrent Neural Network and Language Modeling
        • (04강) LSTM and GRU
        • (05강) Sequence to Sequence with Attention
        • (06강) Beam Search and BLEU score
        • (07-08강) Transformer
        • (09강) Self-supervised Pre-training Models
      • [P Stage] - KLUE
        • (1강) 인공지능과 자연어 처리
        • (2강) 자연어의 전처리
        • (3강) BERT 언어모델 소개
        • (4강) 한국어 BERT 언어 모델 학습
        • (5강) BERT 기반 단일 문장 분류 모델 학습
        • (6강) BERT 기반 두 문장 관계 분류 모델 학습
        • (7강) BERT 언어모델 기반의 문장 토큰 분류
        • 오피스아워 (9.30, 목)
        • (8강) GPT 언어 모델
        • (9강) GPT 언어모델 기반의 자연어 생성
        • (10강) 최신 자연어처리 연구
      • [P Stage] - MRC
        • Before Study
        • (1강) MRC Intro & Python Basics
        • (2강) Extraction-based MRC
        • (3강) Generation-based MRC
        • (4강) Passage Retrieval - Sparse Embedding
        • (5강) Passage Retrieval - Dense Embedding
        • 오피스아워
        • (6강) Scaling up with FAISS
        • (7강) Linking MRC and Retrieval
        • (8강) Reducing Training Bias
        • (9강) Closed-book QA with T5
        • (10강) QA with Phrase Retrieval
        • 마스터클래스
      • [P Stage] - 데이터제작(NLP)
        • (1강) 데이터 제작의 A to Z
        • (2강) 자연어처리 데이터 기초
        • (3강) 자연어처리 데이터 소개 1
        • (4강) 자연어처리 데이터 소개 2
        • (5강) 원시 데이터의 수집과 가공
        • 오피스아워 (11.10, 수)
        • (6강) 데이터 구축 작업 설계
        • (7강) 데이터 구축 가이드라인 작성 기초
        • (8강) 관계 추출 과제의 이해
        • (9강) 관계 추출 관련 논문 읽기
        • (10강) 관계 추출 데이터 구축 실습
      • [P Stage] - 모델 최적화
        • (1강) 최적화 소개 및 강의 개요
        • (2강) 대회 및 데이터셋 소개
        • (3강) 작은 모델, 좋은 파라미터 찾기: AutoML 이론
        • 🔨(4강) 작은 모델, 좋은 파라미터 찾기: AutoML 실습
        • (5강) 작은 모델, 좋은 파라미터 찾기: Data Augmentation & AutoML 결과 분석
        • 🔨오피스아워 -Baseline 코드에 모듈 작성하기(신종선 멘토님)
      • [P Stage] - Product Serving
        • Part 1: Product Serving 개론
          • 1.1 강의 진행 방식
          • 1.2 MLOps 개론
          • 1.3 Model Serving
          • 1.4 머신러닝 프로젝트 라이프 사이클
        • Part 2: 프로토타입부터 점진적으로 개선하기
          • 2.1 프로토타이핑 - Notebook 베이스(Voila)
          • 2.2 프로토타이핑 - 웹 서비스 형태(Streamlit)
          • 2.3 Linux & Shell Command
          • 2.4 Cloud
          • 2.5 Github Action을 활용한 CI/CD
        • Part 3: 더 완성화된 제품으로
          • 3.1.1 FastAPI
          • 3.1.2 Fast API
          • 3.1.3 Fast API
          • 3.2 Docker
          • 3.3 Logging
          • 3.4 MLFlow
        • Part 4: 심화 소재
          • 4.1 BentoML
          • 4.2 Airflow
          • 4.3 머신러닝 디자인 패턴
          • 4.4 앞으로 더 공부하면 좋을 내용
      • 특강
        • (특강) 김상훈 - 캐글 그랜드마스터의 노하우 대방출
        • (특강) 이활석 - 서비스 향 AI 모델 개발하기
        • (특강) 구종만 - AI + ML과 Quant Trading
        • (특강) 문지형 - 내가 만든 AI 모델은 합법일까, 불법일까
        • (특강) 이준엽 - Full Stack ML Engineer
        • (특강) 박은정 - AI 시대의 커리어 빌딩
        • (특강) 오혜연 - AI Ethics
    • Competition
      • (DACON)한국어 문장 관계 분류 경진대회
        • Day1(2.14, 월)
        • Day2(2.15, 화)
        • Day3(2.16, 수)
        • Day4(2.17, 목)
      • 2021 인공지능 데이터 활용 경진대회
        • 역량평가
          • Day1 (9.28, 화)
          • Day2 (9.29, 수)
          • Day3 (9.30, 목)
        • 예선
          • Data 분석
          • NSML
          • What We Have Done?
    • ETC
      • 인터뷰 대비
        • Computer Science
        • ML/DL
      • Poetry로 dependency 관리
        • window에서 설치하기
      • code block
      • 공부할 것 임시보관
      • Transformer to T5
      • Hugging Face Tutorial
        • Ch1. Transformer models
        • Ch2. Using Transformers
        • Ch3. Fine-tuning a model with the Trainer API
      • KLUE
      • Pandas
  • TIL : Ops
    • AWS
      • SageMaker
  • TIL : Computer (CS)
    • Error
      • TextEncodeInput must be Union[TextInputSequence, Tuple[InputSequence, InputSequence]]
    • Algorithm
      • Theory
      • Programmers
        • 기능개발
    • ETC
      • Github 커밋 히스토리 삭제
Powered by GitBook
On this page
  • 1. BERT 이후의 다양한 LM
  • 1.1. XLNet
  • 1.2. RoBERTa
  • 1.3. BART
  • 1.4. T5
  • 1.5. Meena
  • 1.6. Controllable LM
  • 2. Muti-modal Language Model
  • 2.1. 할머니 세포 (Grandmother cell)
  • 2.2. LXMERT
  • 2.3. ViLBERT
  • 2.4. Dall-e

Was this helpful?

  1. TIL : ML
  2. Boostcamp
  3. [P Stage] - KLUE

(10강) 최신 자연어처리 연구

Previous(9강) GPT 언어모델 기반의 자연어 생성Next[P Stage] - MRC

Last updated 3 years ago

Was this helpful?

  • 최신언어모델의 트랜드

  • RoBERTa, XLNet, BART, T5

[Reference]

Reformer

T-5

Roberta

Longformer

Multimodal transformers

1. BERT 이후의 다양한 LM

1.1. XLNet

  • BERT와 GPT-2는 위와 같은 문제점을 가지고 있다.

  • 위 두가지 문제점을 보완하고자 나온 모델이 XLNet이다.

Relative positional encoding

BERT의 (512 token)Embedding length의 한계를 보완하고자 positional encoding을 사용하였다. 현재의 토큰의 위치 대비 즉, 상대적 거리 표현법으로 사용하여 sequence의 길이에 제한이 없어졌다.

Permutation language modeling

mask token을 없애고 Permutation language modeling으로 학습을 진행한다.

  • 순서를 섞어서 학습함으로써 단방향이 아닌 모든 가능성에 대해 학습하게 됨.

  • 출시 당시 SOTA 등극함.

1.2. RoBERTa

BERT 모델 구조에서 학습 방법을 고민

  • Model 학습식간 증가 + batch size 증가 + Train data 증가

  • NSP(Next Sentence Prediction) 제거 -> fine-tuning 과 관련 없음 + 너무 쉬운 문제라 오히려 성능하락

  • Longer sentence 추가

  • Dynamic masking -> 똑같은 텍스트 데이터에 대해 masking을 10번 다르게 적용하여 학습

1.3. BART

Transformer Encoder - Decoder 통합 Language Model

  • BERT + GPT

  • 복잡하고 다양한 task 들을 한번에 예측할 수 있도록 만든 모델

1.4. T5

Transformer Encoder - Decoder 통합 LM -> 현재 SOTA (2021.10 기준)

  • Pre-Train 과정에서 온갖 task들을 다양하게 학습이 가능하다.

  • masking 기법을 사용하는데 의미를 가진 여러 어절들을 동시에 masking을 하고 한번에 여러 multi mask를 복원하는 방식으로 학습을 한다.

  • 한국어 T-5가 없지만 mt-5에 한국어가 포함되어있다.

1.5. Meena

대화모델을 위한 LM

  • 소셜 미디어의 데이터 (341GB, 400억개의 단어)를 이용하여 26억개의 파라미터를 가진 신경망 모델을 이용한 end-to-end multi-turn 챗봇

  • 챗봇의 평가를 위한 새로운 Metric인 SSA(Sensibleness and Specificity Average)를 제시

1.6. Controllable LM

확률론에 기반한 생성모델은 윤리성 문제를 담을 수 없다. 이런 부분에 대해 연구되고 있는 부분이 Controllable Language Model이다.

Plug and Play Language Model (PPLM)

  • 다음에 등장할 단어 -> 확률 분포를 통해 선택

  • 내가 원하는 단어들의 확률이 최대가 되도록 이전 상태의 vector를 수정

  • 수정된 vector를 통해 다음 단어 예측

  • 내가 가진 back of word에 담긴 단어들이 최대 확률이 되도록 수정하는 방식이다.

  • 즉, 의도적인 유도를 만들어 낼 수 있다는 것.

  • 확률 분포를 사용하는 것이기 떄문에, 중첩도 가능 (기쁨 + 놀람 + 게임)

  • 특정 카테고리에 대한 감정을 컨트롤해서 생성 가능

    • 정치적, 종교적, 성적, 인종적 키워드에 대해 중립적인 단어를 선택하도록 할 수 있음

    • 범죄 사건에 대해서는 부정적으로 선택하도록 할 수 있음

  • 확률 분포 조절을 통해 그라데이션 분노 가능하다.

2. Muti-modal Language Model

자연어로만 자연어를 예측하는 것은 한계가 존재한다. 사람은 언어를 습득함에 있어서 시각, 후각, 청각, 촉각 등 다양한 감각이 영향을 끼친다. 이런 부분을 다룬 것이 Multi-modal Language model이다.

2.1. 할머니 세포 (Grandmother cell)

어머니에 대한 정보를 담고 있는 뉴런들을 제거 하자 해당 concept에 대한 기억이 사라진다는 것.

2.2. LXMERT

이미지와 자연어를 동시에 학습

Cross-modal reasoning language model (learning Cross-Modality Encoder Represen - tations from Transformers)

2.3. ViLBERT

BERT for vision- and-language

이미지와 텍스트를 함께 학습한 모델이 가장 좋은 성능을 나타내는 것을 볼 수 있었다.

2.4. Dall-e

자연어로부터 이미지를 생성해내는 모델

  • VQ-VAE를 통해 이미지의 차원 축소 학습

    • 큰 이미지에 대해 차원을 축소한다.

  • Autoregressive 형태로 다음 토큰 예측 학습

1. The Reformer - Pushing the limits of language modeling
2. PyTorch Reformer
3. Reformer For Masked LM
4. Training RoBERTa from scratch the missing guide polish language model
1. TF-T5-text-to-text
2. Text Generation with blurr
3. Transformers Summarization wandb
4. MT5 Inference for question generation
5. Fine-tune MT5 for question generation in hindi
1. Convert Model to Long
2. How to train a new language model from scratch using Transformers and
3. Warm-starting RoBERTaShared for BBC XSum
1. Longoemer QA Training
1. SimpleTransformers
2. HuggingFace Transformers와 테이블 형식 데이터를 통합하는 방법
chair which has shape of avocado