Abstract
- Definition of transfer learning
- Transfer learning(전이 학습)
- Downstream task에서 fine-tuning하기 전, 방대한 양의 데이터에서 사전학습시키는 방법
- NLP 분야에서 강력하게 사용되는 기술
- Research goal
- 모든 text 기반 언어 문제를 text-to-text 형식으로 변환하는 통합된 프레임워크를 통해 NLP의 전이 학습 기술 영역 탐구
Introduction
- Introduction
- NLP task를 수행하는 모델을 훈련시키는 것은 모델이 downstream 학습에 적합한 방식으로 text를 처리할 수 있는 능력 필요
- 이는 모델이 text를 “이해”할 수 있게 하는 general-purpose knowledge(범용 지식)을 개발하는 것으로 생각되어질 수 있음
- Background
- 최근, 풍부한 데이터에 대해 모델을 사전 학습 시키는 방법이 점점 일반적으로 활용되어지고 있음
- 이 사전 학습 과정에서 모델은 범용 능력 및 지식을 학습하여 downstream task에 전이할 수 있는 능력을 가짐
- 풍부한 unlabeled data 를 활용할 수 있게 됨에 따라, NLP 분야에서 다양한 방식의 전이 학습 방법론이 연구되었고, 이는 현존하는 전이 학습의 방법을 이해하기 어렵게 만듬
- 따라서, 본 논문에서 전이학습의 다양한 접근법을 연구할 수 있도록 하는 통합적인 접근법을 체계적으로 활용하고 이 분야의 현재 한계점에 도전하고자 함
- Methods
Model
- Transformer architecture
- 기존에 제안된 original transformer과 크게 다르지 않은 구조 사용
- e.g. Layer Norm bias 제거, Normalization을 residual path 밖으로 이동, 다른 기법의 positioning embedding 방법 사용…
- 이러한 구조 차이가 실험과 성능에 어떤 영향을 미치는지 세부적으로 분석하는 거은 향후 연구의 과제로 남김
The Colossal Clean Crawled Corpus
- Introduce C4 dataset
- 기존에 연구된 NLP을 위한 전이 학습의 대부분은 대규모의 unlabeled data를 활용
- 본 연구에서, 이 데이터셋의 효과, 질, 성격, 크기 등이 미치는 영향에 대해 분석하고자 하여 새로운 데이터셋 C4(Colossal Clean Crawled Corpus)를 구축
- Detail of the C4 dataset
Downstream Tasks
<aside>
💡 Our goal in this paper is to measure general language learning abilities,
As such, we study downstream performance on a diverse set of benchmarks, including machine translation,question answering, abstractive summarization, and text classification.
</aside>
-
Benchmark Dataset
-
GLUE, SuperGLUE text classification meta-benchmarks
-
CNN / Daily Mail abstrative summarizations
-
SQuAD question answering
-
WMT English to German, French, and Romanian translation
⇒ 모든 데이터는 TensorFlow Dataset에서 수집되었다.
-
나머지 데이터셋 리스트
Input and Output Format

- Cast all of the tasks into a “text-to-text” format
- 여러 task을 학습하는 단일 모델을 위해 모든 task의 형태를 text-to-text 로 변환
- 모두 일관된 training objective (Maximum likelihood objective) 사용