[Paper Review] Transformer to T5 (XLNet, RoBERTa, MASS, BART, MT-DNN,T5) - 고려대학교 산업경영공학부 DSBA 연구실

[Paper Review] Transformer to T5 (XLNet, RoBERTa, MASS, BART, MT-DNN,T5) - 고려대학교 산업경영공학부 DSBA 연구실

세미나 훔쳐보기 2024. 6. 12. 15:13
[Paper Review] Transformer to T5 (XLNet, RoBERTa, MASS, BART, MT-DNN,T5)

속이 뻥 뚫리는 시원한 리뷰였다. 4년 전 영상이니, 발표자분께서 지금은 무엇을 하고 지내실지 궁금하다. 해당 발표에서는 6개의 논문을 리뷰했다. 1) XLNet(June, 2019), 2) RoBERTa(July, 2019), 3) MASS(July, 2019), 4) BART(October, 2019), 5) MT-DNN(April, 2019), 6) T5(October, 2019) 아래에서 하나씩 살펴보겠다.

XLNet(June, 2019)

배경

기존 언어모델 훈련 방법으로는 AE(Auto-Encoding)와 AR(Auto-Regressive) 방법이 있다.

AE는 [MASK] token을 예측하는 것이 목적이므로 [MASK] token과 멀리 떨어진 tokens 사이의 연관성을 학습하는 데 어려움이 있다. 또한 미세조정 과정에서는 [MASK] token이 등장하지 않는다는 문제점도 있다.

AR의 경우 next token을 점진적으로 예측하는 것이 목적이므로 단방향으로만 학습이 진행된다.

적용

Permutation Language Modeling

입력 데이터에 순열을 적용하여 AR의 특징인 단방향 학습의 한계점을 이겨냈다. 즉, "I have cat"이라는 문장에 대해 순열을 적용하여 ["I have cat", "I cat have", "have I cat", "have cat I", "cat I have", "cat have I"]라는 문장들을 만든 후, AR 과제를 적용하였다.

Target-Aware Representation for Transformer

Permutation Language Modeling을 적용할 경우, 같은 분포인데 다른 값을 예측해야 하는 경우가 생겨 합당한 학습이 이루어지지 않을 수 있다. 예를 들어 token "I"가 "have"를 예측해야 하는 경우도 있고, "cat"을 예측해야 하는 경우도 있다. 따라서 위치 정보까지 함께 예측하도록 학습한다.

Two-Stream Self-Attention

아래 두 가지 표상을 학습한다.

Query Representation: $g_{\theta}(x_{z<t}, Z_t)$

Context Representation: $h_{\theta}(x_{z{\le}t})$

Relative Positional Encoding

Segment Recurrence Mechanism

RoBERTa(July, 2019)

배경

BERT 모델은 과소적합 되어 있다!

저자는 BERT 모델 최적화를 통해 모델의 성능 향상을 이루고자 하였다.

RoBERTa는 Robustly Optimized BERT Pretraning Approach의 약자이다.

적용

학습시간, 배치 크기 및 학습 데이터를 늘렸다.

Next Sentence Prediction이 비교적 쉬운 과제라 오히려 모델 성능을 떨어뜨린다고 판단해 제거했다.

BERT에 비해 더 긴 시퀀스를 학습 데이터로 사용했다.

Dynamic Masking Pattern을 적용했다. 즉, 학습이 진행될 때마다 무작위 토큰을 마스킹하였다.

MASS(July, 2019)

배경

MASS는 Masked Sequence to Sequence의 약자이다.

적용

Sequence Masking

기존에는 하나의 토큰을 마스킹해 사용했다.

MASS에서는 하이퍼파라미터 K에 따라 연속된 K개의 토큰을 마스킹한 후 학습을 진행한다.

K=1일 경우 BERT와, K=m(max_length)일 경우 GPT와 동일한 과제를 수행하게 된다.

BART(July, 2019)

배경

BART는 Bidirectional and Auto-Regressive Transformer의 약자이다.

다양한 방법으로 노이즈를 추가한 입력 데이터를 학습에 사용해 모델의 성능을 높이고자 했다.

적용

Token Masking

BERT의 마스킹과 동일하다.

Token Deletion

임의의 토큰을 삭제한 후, 삭제한 토큰의 위치를 찾는다.

Text Infilling

토큰 뭉텅이를 하나의 [MASK] 토큰으로 바꾼 후, [MASK]로 대체된 토큰에 몇 개의 토큰이 존재하는지 예측한다.

Sentence Permutation

문장의 순서를 무작위로 섞은 후 학습을 진행한다.

Document Rotation

문서 내 하나의 토큰을 뽑은 후, 그 토큰을 시작점으로 회전한다.

모델이 문서의 시작점을 찾도록 학습시킨다.

MT-DNN(April, 2019)

배경

MT-DNN은 Multi-Task Deep Neural Networks의 약자이다.

굳이 하나의 세부 과제만 학습할 필요가 있을까?

다양한 과제를 대상으로 인코더를 학습하면 더 좋은 표상을 만들 수 있을 것이다.

적용

Multi-Task Learning

학습에 사용한 과제 종류는 아래와 같다.

Single-Sentence Classification

Text Similarity

Pairwise Text Classification

Relevance Ranking

MTL을 사용할 경우 비교적 많은 양의 라벨링된 데이터를 사용할 수 있다.

여러 가지 모델을 학습하기 때문에 Regularization 효과를 낼 수 있다.

T5(October, 2019)

배경

T5는 Text To Text Transfer Transformer의 약자이다.

입력도 텍스트, 출력도 텍스트인 Unified Framework를 만들고자 했다.

다양한 NLP 과제를 수행할 수 있는 단일 모델을 만들고자 했다.

적용

Basic Transformer (Encoder-Decoder 구조)

Auto-Encoding Objective: BART의 Infilling

11 Billon Parameters: 파라미터의 한계 돌파 (이때는 그랬다....)

Output Level에서 FFNN + Softmax를 통해 시퀀스 생성

1년 사이에 논문이 이렇게 쏟아져 나왔다는 점이 놀랍다. XLNet부터 T5까지 2년 정도는 차이나는 줄 알았는데, 같은 연도라고....? T5 등장 시점부터 이미 일반적인 연구소에서는 임베딩 벡터를 학습하기 어려운 수준이라는 점도 신기했다. 그러면, LLM이 대거 등장한 지금은 어떤 관점에서 연구를 진행하고 있을까? 모델 경량화? 다른 도메인에 적용? 강화학습? 최신 트렌드가 궁금해지는 하루다.
'세미나 훔쳐보기' 카테고리의 다른 글

Intro (0) 2024.06.11
관련글 관련글 더보기
- Intro
댓글

ABOUT ME

동산 동산

'세미나 훔쳐보기' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'세미나 훔쳐보기' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바