2403.08295 Mar 13, 2024 cs.AI

Gemma: Gemini 연구 및 기술을 기반으로 한 오픈 모델

Gemma: Open Models Based on Gemini Research and Technology

O. Vinyals
O. Vinyals
Citations: 253,882
h-index: 102
Armand Joulin
Armand Joulin
Citations: 89,566
h-index: 71
R. Comanescu
R. Comanescu
Citations: 8,914
h-index: 12
D. Hassabis
D. Hassabis
Citations: 182,350
h-index: 88
K. Kavukcuoglu
K. Kavukcuoglu
Citations: 225,616
h-index: 75
Sebastian Borgeaud
Sebastian Borgeaud
Citations: 26,473
h-index: 20
Katie Millican
Katie Millican
Citations: 19,832
h-index: 10
T. Hennigan
T. Hennigan
Citations: 12,856
h-index: 8
Elena Buchatskaya
Elena Buchatskaya
Citations: 22,456
h-index: 12
L. Sifre
L. Sifre
Citations: 56,920
h-index: 28
Jean-Baptiste Lespiau
Jean-Baptiste Lespiau
Citations: 11,531
h-index: 18
J. Stanway
J. Stanway
Citations: 9,601
h-index: 10
Machel Reid
Machel Reid
Google DeepMind
Citations: 15,241
h-index: 19
Rohan Anil
Rohan Anil
Google Brain
Citations: 15,094
h-index: 21
Ross Mcilroy
Ross Mcilroy
Citations: 6,251
h-index: 6
Eli Collins
Eli Collins
Citations: 9,032
h-index: 7
H. Michalewski
H. Michalewski
Citations: 25,212
h-index: 24
James Keeling
James Keeling
Citations: 9,358
h-index: 8
Siamak Shakeri
Siamak Shakeri
Citations: 11,590
h-index: 20
A. Chowdhery
A. Chowdhery
Citations: 28,463
h-index: 30
Os-car Chang
Os-car Chang
Citations: 6,494
h-index: 7
George Tucker
George Tucker
Citations: 6,234
h-index: 5
Ambrose Slone
Ambrose Slone
Citations: 11,892
h-index: 9
J Christopher Love
J Christopher Love
Citations: 6,374
h-index: 7
R. Chaabouni
R. Chaabouni
Citations: 7,004
h-index: 15
J. Mao-Jones
J. Mao-Jones
Citations: 6,351
h-index: 5
Charline Le Lan
Charline Le Lan
Citations: 9,713
h-index: 15
Paul Michel
Paul Michel
Citations: 8,234
h-index: 8
Justin Chiu
Justin Chiu
Citations: 6,280
h-index: 6
Lisa Lee
Lisa Lee
Citations: 6,214
h-index: 4
Evan Senter
Evan Senter
Citations: 9,092
h-index: 9
Mateo Wirth
Mateo Wirth
Citations: 8,171
h-index: 7
Zafarali Ahmed
Zafarali Ahmed
Citations: 6,234
h-index: 5
Eric Noland
Eric Noland
Citations: 13,631
h-index: 11
Jenny Brennan
Jenny Brennan
Citations: 8,341
h-index: 8
Sholto Douglas
Sholto Douglas
Citations: 6,826
h-index: 7
Wojciech Stokowiec
Wojciech Stokowiec
Citations: 6,631
h-index: 8
Jane Labanowski
Jane Labanowski
Citations: 6,219
h-index: 4
Minh Giang
Minh Giang
Citations: 9,072
h-index: 8
Vladimir Feinberg
Vladimir Feinberg
Citations: 8,924
h-index: 8
Jeremy Chen
Jeremy Chen
Citations: 6,219
h-index: 4
Ruibo Liu
Ruibo Liu
Google DeepMind
Citations: 6,075
h-index: 22
Michael Sharman
Michael Sharman
Citations: 4,508
h-index: 8
Alek Andreev
Alek Andreev
Citations: 9,190
h-index: 8
David Reid
David Reid
Citations: 6,231
h-index: 5
Gemma Team Thomas Mesnard
Gemma Team Thomas Mesnard
Citations: 924
h-index: 1
Cassidy Hardin
Cassidy Hardin
Citations: 6,000
h-index: 8
Robert Dadashi
Robert Dadashi
Citations: 7,038
h-index: 20
Surya Bhupatiraju
Surya Bhupatiraju
Citations: 6,433
h-index: 11
Shreya Pathak
Shreya Pathak
Citations: 6,033
h-index: 9
Morgane Rivière
Morgane Rivière
Citations: 4,261
h-index: 6
Mihir Kale
Mihir Kale
Citations: 8,142
h-index: 18
P. Tafti
P. Tafti
Citations: 6,384
h-index: 15
L'eonard Hussenot
L'eonard Hussenot
Citations: 2,265
h-index: 16
Adam Roberts
Adam Roberts
Citations: 937
h-index: 2
Aditya Barua
Aditya Barua
Citations: 4,779
h-index: 7
Alex Botev
Alex Botev
Citations: 951
h-index: 2
Alex Castro-Ros
Alex Castro-Ros
Citations: 2,981
h-index: 4
Am'elie H'eliou
Am'elie H'eliou
Citations: 1,193
h-index: 8
Andrea Tacchetti
Andrea Tacchetti
Citations: 5,280
h-index: 16
Anna Bulanova
Anna Bulanova
Citations: 6,257
h-index: 7
Antonia Paterson
Antonia Paterson
Citations: 3,786
h-index: 6
Beth Tsai
Beth Tsai
Citations: 941
h-index: 3
Bobak Shahriari
Bobak Shahriari
Citations: 12,080
h-index: 15
Christopher A. Choquette-Choo
Christopher A. Choquette-Choo
Google DeepMind
Citations: 10,441
h-index: 25
Clé-ment Crepy
Clé-ment Crepy
Citations: 1,232
h-index: 5
Daniel Cer
Daniel Cer
Citations: 1,175
h-index: 7
Daphne Ippolito
Daphne Ippolito
Citations: 17,908
h-index: 32
Eric Ni
Eric Ni
Citations: 2,973
h-index: 4
Geng Yan
Geng Yan
Citations: 2,991
h-index: 5
George-Christian Muraru
George-Christian Muraru
Citations: 943
h-index: 3
Grigory Rozhdestvenskiy
Grigory Rozhdestvenskiy
Citations: 2,967
h-index: 3
Ian Tenney
Ian Tenney
Citations: 4,288
h-index: 7
Ivan Grishchenko
Ivan Grishchenko
Citations: 2,179
h-index: 7
Jacob Austin
Jacob Austin
Citations: 16,232
h-index: 10
Johan Ferret
Johan Ferret
Citations: 7,135
h-index: 18
Kather-ine Lee
Kather-ine Lee
Citations: 4,275
h-index: 7
Kathy Yu
Kathy Yu
Citations: 1,976
h-index: 3
Lars Lowe Sjoesund
Lars Lowe Sjoesund
Citations: 4,733
h-index: 5
Lucas Dixon
Lucas Dixon
Google DeepMind
Citations: 8,770
h-index: 19
Maciej Mikuła
Maciej Mikuła
Citations: 2,967
h-index: 3
Nikolai Chinaev
Nikolai Chinaev
Citations: 2,970
h-index: 3
Nithum Thain
Nithum Thain
Citations: 4,741
h-index: 20
Olivier Bachem
Olivier Bachem
Citations: 12,821
h-index: 39
Oscar Wahltinez
Oscar Wahltinez
Citations: 2,869
h-index: 7
Paige Bailey
Paige Bailey
Citations: 2,500
h-index: 5
Petko Yotov
Petko Yotov
Citations: 934
h-index: 2
Pier Giuseppe Sessa
Pier Giuseppe Sessa
Citations: 6,289
h-index: 16
Reena Jana
Reena Jana
Citations: 2,701
h-index: 4
Ryan Mullins
Ryan Mullins
Citations: 6,004
h-index: 10
Samuel L. Smith
Samuel L. Smith
Citations: 1,183
h-index: 4
Sertan Girgin
Sertan Girgin
Citations: 8,280
h-index: 23
Shree Pandya
Shree Pandya
Citations: 942
h-index: 3
Soham De
Soham De
Citations: 1,330
h-index: 8
Ted Klimenko
Ted Klimenko
Citations: 950
h-index: 4
Zhitao Gong
Zhitao Gong
Citations: 3,002
h-index: 6
Tris Warkentin
Tris Warkentin
Citations: 6,738
h-index: 12
Ludovic Peran
Ludovic Peran
Citations: 2,888
h-index: 7
Clément Farabet
Clément Farabet
Citations: 9,391
h-index: 9
Jeffrey Dean
Jeffrey Dean
Citations: 14,082
h-index: 7
Z. Ghahramani
Z. Ghahramani
Citations: 8,332
h-index: 20
Douglas Eck
Douglas Eck
Citations: 1,027
h-index: 4
Joelle Barral
Joelle Barral
Citations: 3,752
h-index: 6
Fernando Pereira
Fernando Pereira
Citations: 2,967
h-index: 3
Noah Fiedel
Noah Fiedel
Citations: 22,415
h-index: 20
Kathleen Kenealy
Kathleen Kenealy
Citations: 5,781
h-index: 9
Yu-Hui Chen
Yu-Hui Chen
Citations: 2,219
h-index: 10

본 연구에서는 Gemini 모델을 만드는 데 사용된 연구 및 기술을 바탕으로 구축된 경량의 최첨단 오픈 모델 제품군인 Gemma를 소개합니다. Gemma 모델은 언어 이해, 추론 및 안전성에 대한 학술 벤치마크 전반에서 강력한 성능을 보여줍니다. 우리는 두 가지 크기(20억 및 70억 매개변수)의 모델을 공개하며, 사전 학습된 체크포인트와 미세 조정된 체크포인트를 모두 제공합니다. Gemma는 18개의 텍스트 기반 작업 중 11개에서 유사한 크기의 오픈 모델보다 뛰어난 성능을 보이며, 모델 개발에 대한 상세한 설명과 함께 모델의 안전성 및 책임성 측면에 대한 포괄적인 평가를 제시합니다. 우리는 책임감 있는 LLM 공개가 프런티어 모델의 안전성을 개선하고 차세대 LLM 혁신을 가능하게 하는 데 중요하다고 믿습니다.

Original Abstract

This work introduces Gemma, a family of lightweight, state-of-the art open models built from the research and technology used to create Gemini models. Gemma models demonstrate strong performance across academic benchmarks for language understanding, reasoning, and safety. We release two sizes of models (2 billion and 7 billion parameters), and provide both pretrained and fine-tuned checkpoints. Gemma outperforms similarly sized open models on 11 out of 18 text-based tasks, and we present comprehensive evaluations of safety and responsibility aspects of the models, alongside a detailed description of model development. We believe the responsible release of LLMs is critical for improving the safety of frontier models, and for enabling the next wave of LLM innovations.

939 Citations
117 Influential
30 Altmetric
1,323.0 Score

AI Analysis

Korean Summary

본 논문은 구글 딥마인드(Google DeepMind)가 개발한 '젬마(Gemma)' 모델을 소개합니다. 젬마는 구글의 최신 모델인 제미나이(Gemini)의 연구 및 기술을 기반으로 구축된 경량 오픈 모델 제품군입니다. 20억(2B) 및 70억(7B) 파라미터 두 가지 크기로 제공되며, 사전 학습(Pre-trained) 및 지시 튜닝(Instruction-tuned)된 체크포인트가 모두 공개되었습니다. 젬마는 대규모 텍스트 데이터(최대 6조 토큰)로 학습되었으며, 유사한 크기의 오픈 모델인 LLaMA-2나 Mistral에 비해 언어 이해, 추론, 코딩, 수학 등 18개 중 11개 벤치마크에서 우수한 성능을 입증했습니다. 또한, 엄격한 안전성 평가와 RLHF(인간 피드백 기반 강화 학습)를 통해 책임감 있는 AI 배포를 강조하고 있습니다.

Key Innovations

  • 제미나이(Gemini) 모델 기반의 아키텍처 및 학습 레시피 계승
  • 2B 모델에 멀티 쿼리 어텐션(Multi-Query Attention, MQA)을 적용하여 온디바이스 효율성 증대 (7B는 멀티 헤드 어텐션 유지)
  • 절대 위치 임베딩 대신 회전 위치 임베딩(RoPE) 사용 및 GeGLU 활성화 함수 도입
  • 256k 토큰의 대용량 어휘 사전(Vocabulary)과 8192 토큰의 컨텍스트 길이 지원
  • SFT(지도 미세 조정)와 RLHF(인간 피드백 기반 강화 학습)를 결합한 고도화된 튜닝 파이프라인
  • TPUv5e 및 JAX/Pathways 인프라를 활용한 대규모 분산 학습 및 최적화

Learning & Inference Impact

학습 과정에서는 TPUv5e와 JAX/Pathways를 활용하여 수천 개의 칩에 걸쳐 모델을 효율적으로 샤딩하고 데이터를 복제하여 학습 속도와 안정성을 확보했습니다. 특히 젬마는 2B 모델 설계 시 멀티 쿼리 어텐션(MQA)을 채택하여 추론 시 KV 캐시 메모리 사용량을 줄이고 속도를 높여 CPU나 모바일 기기(온디바이스) 배포에 유리하도록 설계되었습니다. 반면 7B 모델은 성능 극대화를 위해 멀티 헤드 어텐션을 유지하여 GPU/TPU 환경에서의 고성능 배포에 초점을 맞췄습니다. 또한, 256k의 큰 어휘 사전은 다국어 처리 및 압축 효율에 기여하지만 모델 크기를 일부 증가시키는 요인이 되기도 합니다. 학습 데이터 필터링과 RLHF 단계는 모델의 환각을 줄이고 안전성을 높이는 데 결정적인 역할을 수행했습니다.

Technical Difficulty

중급

Estimated implementation complexity based on methodology.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!