2112.11446 Dec 08, 2021 cs.AI

언어 모델 확장(Scaling): Gopher 학습을 통해 얻은 방법, 분석 및 통찰

Scaling Language Models: Methods, Analysis & Insights from Training Gopher

O. Vinyals
O. Vinyals
Citations: 253,882
h-index: 102
Amelia Glaese
Amelia Glaese
Citations: 4,701
h-index: 9
Nat McAleese
Nat McAleese
Citations: 4,275
h-index: 10
John Aslanides
John Aslanides
Citations: 6,951
h-index: 14
Maribeth Rauh
Maribeth Rauh
Citations: 4,981
h-index: 12
Laura Weidinger
Laura Weidinger
Citations: 5,517
h-index: 18
Jonathan Uesato
Jonathan Uesato
Citations: 13,100
h-index: 25
Po-Sen Huang
Po-Sen Huang
Citations: 11,699
h-index: 31
Sumanth Dathathri
Sumanth Dathathri
Citations: 4,329
h-index: 14
Doug Fritz
Doug Fritz
Citations: 2,544
h-index: 3
Susannah Young
Susannah Young
Citations: 2,971
h-index: 7
Iason Gabriel
Iason Gabriel
Citations: 7,382
h-index: 24
William S. Isaac
William S. Isaac
Citations: 5,821
h-index: 14
John F. J. Mellor
John F. J. Mellor
Citations: 4,952
h-index: 10
D. Hassabis
D. Hassabis
Citations: 182,350
h-index: 88
K. Kavukcuoglu
K. Kavukcuoglu
Citations: 225,616
h-index: 75
Lisa Anne Hendricks
Lisa Anne Hendricks
Citations: 20,989
h-index: 32
G. Irving
G. Irving
Citations: 43,536
h-index: 22
Jack W. Rae
Jack W. Rae
Citations: 13,908
h-index: 24
Sebastian Borgeaud
Sebastian Borgeaud
Citations: 26,473
h-index: 20
Trevor Cai
Trevor Cai
Citations: 11,798
h-index: 8
Katie Millican
Katie Millican
Citations: 19,832
h-index: 10
Jordan Hoffmann
Jordan Hoffmann
Citations: 8,422
h-index: 15
Francis Song
Francis Song
Citations: 3,564
h-index: 9
Sarah Henderson
Sarah Henderson
Citations: 1,809
h-index: 3
Roman Ring
Roman Ring
Citations: 18,785
h-index: 9
Eliza Rutherford
Eliza Rutherford
Citations: 17,178
h-index: 8
T. Hennigan
T. Hennigan
Citations: 12,856
h-index: 8
Jacob Menick
Jacob Menick
Citations: 35,589
h-index: 9
Albin Cassirer
Albin Cassirer
Citations: 9,414
h-index: 9
Richard Powell
Richard Powell
Citations: 11,081
h-index: 6
George van den Driessche
George van den Driessche
Citations: 41,666
h-index: 13
Johannes Welbl
Johannes Welbl
Citations: 13,483
h-index: 19
Saffron Huang
Saffron Huang
Citations: 4,243
h-index: 7
I. Higgins
I. Higgins
Citations: 12,034
h-index: 21
Antonia Creswell
Antonia Creswell
Citations: 7,954
h-index: 19
Amy Wu
Amy Wu
Citations: 1,719
h-index: 2
Erich Elsen
Erich Elsen
Citations: 20,177
h-index: 26
Siddhant M. Jayakumar
Siddhant M. Jayakumar
Citations: 4,010
h-index: 14
Elena Buchatskaya
Elena Buchatskaya
Citations: 22,456
h-index: 12
D. Budden
D. Budden
Citations: 10,888
h-index: 27
Esme Sutherland
Esme Sutherland
Citations: 1,553
h-index: 1
K. Simonyan
K. Simonyan
Citations: 211,588
h-index: 64
Michela Paganini
Michela Paganini
Citations: 9,288
h-index: 40
L. Sifre
L. Sifre
Citations: 56,920
h-index: 28
Xiang Lorraine Li
Xiang Lorraine Li
UMASS Amherst
Citations: 3,391
h-index: 19
A. Kuncoro
A. Kuncoro
Citations: 4,016
h-index: 18
Aida Nematzadeh
Aida Nematzadeh
Citations: 7,725
h-index: 13
E. Gribovskaya
E. Gribovskaya
Citations: 8,404
h-index: 17
Domenic Donato
Domenic Donato
DeepMind
Citations: 1,652
h-index: 7
Angeliki Lazaridou
Angeliki Lazaridou
Citations: 11,549
h-index: 35
Arthur Mensch
Arthur Mensch
Citations: 17,041
h-index: 12
Jean-Baptiste Lespiau
Jean-Baptiste Lespiau
Citations: 11,531
h-index: 18
M. Tsimpoukelli
M. Tsimpoukelli
Citations: 16,551
h-index: 8
N. Grigorev
N. Grigorev
Citations: 1,554
h-index: 2
Thibault Sottiaux
Thibault Sottiaux
Citations: 4,846
h-index: 3
Mantas Pajarskas
Mantas Pajarskas
Citations: 6,850
h-index: 5
Tobias Pohlen
Tobias Pohlen
Citations: 7,390
h-index: 8
Z. Gong
Z. Gong
Citations: 1,654
h-index: 7
Daniel Toyama
Daniel Toyama
Citations: 7,362
h-index: 11
Cyprien de Masson d'Autume
Cyprien de Masson d'Autume
Citations: 3,186
h-index: 13
Yujia Li
Yujia Li
Citations: 18,751
h-index: 27
Tayfun Terzi
Tayfun Terzi
Citations: 4,029
h-index: 5
Vladimir Mikulik
Vladimir Mikulik
DeepMind
Citations: 4,131
h-index: 17
Igor Babuschkin
Igor Babuschkin
Citations: 9,390
h-index: 9
Aidan Clark
Aidan Clark
Citations: 8,916
h-index: 14
Diego de Las Casas
Diego de Las Casas
Citations: 16,306
h-index: 12
Aurelia Guy
Aurelia Guy
Citations: 7,352
h-index: 9
Chris Jones
Chris Jones
Citations: 3,348
h-index: 4
James Bradbury
James Bradbury
Citations: 63,367
h-index: 11
Matthew G. Johnson
Matthew G. Johnson
Citations: 1,804
h-index: 2
Blake A. Hechtman
Blake A. Hechtman
Citations: 5,469
h-index: 16
Edward Lockhart
Edward Lockhart
Citations: 7,040
h-index: 14
Simon Osindero
Simon Osindero
Citations: 45,287
h-index: 36
Laura Rimell
Laura Rimell
Citations: 4,802
h-index: 20
Chris Dyer
Chris Dyer
Citations: 43,247
h-index: 77
Kareem W. Ayoub
Kareem W. Ayoub
Citations: 7,104
h-index: 7
J. Stanway
J. Stanway
Citations: 9,601
h-index: 10
L. Bennett
L. Bennett
Citations: 1,568
h-index: 2
L. Martens
L. Martens
Citations: 1,596
h-index: 4

언어 모델링은 글로 쓰인 방대한 인간 지식 저장소를 활용하여 세상을 더 잘 예측하고 이해함으로써 지능형 의사소통 시스템을 향한 발판을 제공합니다. 본 논문에서는 수천만 개의 파라미터를 가진 모델부터 Gopher라고 불리는 2,800억 개의 파라미터 모델에 이르기까지, 광범위한 모델 규모에 걸친 트랜스포머(Transformer) 기반 언어 모델의 성능 분석을 제시합니다. 이러한 모델들은 152개의 다양한 태스크에서 평가되었으며, 대다수의 태스크에서 최첨단(SOTA) 성능을 달성했습니다. 규모 확장에 따른 성능 향상은 독해, 팩트 체크, 유해 언어 식별과 같은 영역에서 가장 컸으나, 논리적 및 수학적 추론에서는 그 이득이 상대적으로 적었습니다. 우리는 모델 규모와 편향(bias) 및 유해성(toxicity) 간의 교차점을 포함하여, 학습 데이터셋과 모델의 행동에 대한 포괄적인 분석을 제공합니다. 마지막으로 우리는 AI 안전에 대한 언어 모델의 적용과 다운스트림(downstream) 피해 완화에 대해 논의합니다.

Original Abstract

Language modelling provides a step towards intelligent communication systems by harnessing large repositories of written human knowledge to better predict and understand the world. In this paper, we present an analysis of Transformer-based language model performance across a wide range of model scales -- from models with tens of millions of parameters up to a 280 billion parameter model called Gopher. These models are evaluated on 152 diverse tasks, achieving state-of-the-art performance across the majority. Gains from scale are largest in areas such as reading comprehension, fact-checking, and the identification of toxic language, but logical and mathematical reasoning see less benefit. We provide a holistic analysis of the training dataset and model's behaviour, covering the intersection of model scale with bias and toxicity. Finally we discuss the application of language models to AI safety and the mitigation of downstream harms.

1554 Citations
95 Influential
30 Altmetric
1,894.0 Score

AI Analysis

Korean Summary

이 논문은 딥마인드(DeepMind)에서 개발한 2,800억(280B) 파라미터 규모의 거대 언어 모델인 'Gopher'를 소개하고, 모델의 크기 확장이 성능에 미치는 영향을 다각도로 분석했습니다. 152개의 다양한 벤치마크 테스트 결과, Gopher는 독해, 팩트 체크, 독성 언어 식별과 같은 지식 집약적 작업에서 기존 최신 모델(SOTA)들을 능가하는 성능을 보였으나, 논리적·수학적 추론 능력에서는 규모 확장에 따른 이득이 상대적으로 적음을 밝혔습니다. 또한, 고품질 데이터셋인 'MassiveText'의 구축 과정, 모델의 독성 및 편향성 분석, 그리고 대규모 모델의 효율적인 학습 및 추론을 위한 기술적 시도와 한계를 포괄적으로 다루고 있습니다.

Key Innovations

  • 2,800억(280B) 파라미터 규모의 Gopher 모델 아키텍처 (RMSNorm 및 상대적 위치 인코딩 적용)
  • 웹, 도서, 뉴스, 코드를 포함한 10.5TB 규모의 고품질 데이터셋 'MassiveText' 구축 및 정교한 필터링 파이프라인
  • 모델 규모에 따른 성능 향상(Scaling Laws)이 작업 유형(지식 대 추론)에 따라 다르게 나타남을 실증적으로 분석
  • 대화형 프롬프팅(Dialogue Prompting)을 통한 챗봇 성능 및 독성 완화 효과 분석
  • 대규모 인프라(TPUv3)에서의 효율적인 병렬화 학습 전략 (데이터, 모델, 파이프라인 병렬화 결합)

Learning & Inference Impact

학습 측면에서는 데이터 병렬화와 모델 병렬화를 결합하고, 옵티마이저 상태 분할(ZeRO)과 활성화 재계산(Rematerialization) 기법을 사용하여 메모리 효율성을 극대화했습니다. 특히 '상대적 위치 인코딩'을 적용하여 학습 때보다 긴 문맥을 추론 시 처리할 수 있도록 했습니다. 추론 효율성 측면에서는 모델 증류(Distillation), 가지치기(Pruning), 희소 학습(Sparse Training) 등 다양한 압축 기법을 시도했으나, 범용 언어 모델링 성능을 유지하면서 모델 크기를 줄이는 데에는 한계가 있음을 확인했습니다. 이는 향후 연구가 단순 압축보다는 Retrieval 기반 등 새로운 아키텍처 탐색으로 나아가야 함을 시사합니다.

Technical Difficulty

고급

Estimated implementation complexity based on methodology.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!