2307.09288 Jul 18, 2023 cs.AI

Llama 2: 개방형 파운데이션 및 미세 조정된 챗 모델

Llama 2: Open Foundation and Fine-Tuned Chat Models

Hugo Touvron
Hugo Touvron
Citations: 61,053
h-index: 17
Thibaut Lavril
Thibaut Lavril
Citations: 42,813
h-index: 18
X. Martinet
X. Martinet
Citations: 48,475
h-index: 9
M. Lachaux
M. Lachaux
Citations: 42,415
h-index: 16
Naman Goyal
Naman Goyal
Citations: 125,984
h-index: 38
Aur'elien Rodriguez
Aur'elien Rodriguez
Citations: 48,455
h-index: 8
Todor Mihaylov
Todor Mihaylov
Citations: 38,392
h-index: 24
Punit Singh Koura
Punit Singh Koura
Citations: 34,919
h-index: 9
A. Schelten
A. Schelten
Citations: 29,376
h-index: 9
A. Korenev
A. Korenev
Citations: 29,265
h-index: 8
Cristian Canton Ferrer
Cristian Canton Ferrer
Citations: 33,577
h-index: 14
David Esiobu
David Esiobu
Citations: 29,589
h-index: 11
Iliyan Zarov
Iliyan Zarov
Citations: 29,170
h-index: 4
Isabel M. Kloumann
Isabel M. Kloumann
Citations: 32,486
h-index: 18
Jenya Lee
Jenya Lee
Citations: 29,391
h-index: 8
J. Fu
J. Fu
Citations: 29,391
h-index: 8
Lukas Blecher
Lukas Blecher
Citations: 29,635
h-index: 9
Marcin Kardas
Marcin Kardas
Citations: 30,552
h-index: 9
M. Kambadur
M. Kambadur
Citations: 29,888
h-index: 11
Niko-lay Bashlykov
Niko-lay Bashlykov
Citations: 29,426
h-index: 8
Prajjwal Bhargava
Prajjwal Bhargava
Citations: 29,998
h-index: 12
Puxin Xu
Puxin Xu
Citations: 30,656
h-index: 9
Robert Stojnic
Robert Stojnic
Citations: 30,772
h-index: 12
Ross Taylor
Ross Taylor
Citations: 30,291
h-index: 8
Ruan Silva
Ruan Silva
Citations: 29,291
h-index: 8
Sergey Edunov
Sergey Edunov
Facebook AI Research
Citations: 45,670
h-index: 19
Sharan Narang
Sharan Narang
Citations: 75,535
h-index: 29
Shruti Bhosale
Shruti Bhosale
Citations: 34,231
h-index: 21
Soumya Batra
Soumya Batra
Citations: 29,496
h-index: 12
Thomas Scialom
Thomas Scialom
Citations: 34,255
h-index: 15
Vedanuj Goswami
Vedanuj Goswami
Citations: 34,134
h-index: 21
Viktor Kerkez
Viktor Kerkez
Citations: 30,355
h-index: 8
Wenyin Fu
Wenyin Fu
Citations: 29,392
h-index: 8
Yasmine Babaei
Yasmine Babaei
Citations: 29,466
h-index: 9
Yuchen Zhang
Yuchen Zhang
Meta AI
Citations: 29,350
h-index: 8
Diana Liskovich
Diana Liskovich
Citations: 29,618
h-index: 8
Igor Molybog
Igor Molybog
Citations: 29,584
h-index: 7
J. Reizenstein
J. Reizenstein
Citations: 31,305
h-index: 13
Madian Khabsa
Madian Khabsa
Citations: 36,526
h-index: 29
Guillem Cucurull
Guillem Cucurull
Citations: 43,305
h-index: 15
A. Hartshorn
A. Hartshorn
Citations: 18,359
h-index: 22
Andrew Poulton
Andrew Poulton
Citations: 17,327
h-index: 10
Louis Martin
Louis Martin
Facebook AI Research
Citations: 21,085
h-index: 11
Angela Fan
Angela Fan
Citations: 38,186
h-index: 37
Cynthia Gao
Cynthia Gao
Citations: 19,424
h-index: 14
Kevin R. Stone
Kevin R. Stone
Citations: 17,456
h-index: 8
Peter Albert
Peter Albert
Citations: 16,057
h-index: 4
Amjad Almahairi
Amjad Almahairi
Citations: 20,643
h-index: 21
D. Bikel
D. Bikel
Citations: 19,148
h-index: 18
Moya Chen
Moya Chen
Citations: 22,523
h-index: 10
Jude Fernandes
Jude Fernandes
Citations: 16,316
h-index: 6
Brian Fuller
Brian Fuller
Citations: 17,058
h-index: 6
Saghar Hosseini
Saghar Hosseini
Citations: 17,206
h-index: 17
Rui Hou
Rui Hou
Citations: 16,707
h-index: 8
Hakan Inan
Hakan Inan
Citations: 17,059
h-index: 8
Yinghai Lu
Yinghai Lu
Citations: 17,134
h-index: 9
Yuning Mao
Yuning Mao
Citations: 19,466
h-index: 22
Pushkar Mishra
Pushkar Mishra
Facebook AI
Citations: 16,869
h-index: 19
Yixin Nie
Yixin Nie
Citations: 18,839
h-index: 16
Rashi Rungta
Rashi Rungta
Citations: 17,342
h-index: 8
Kalyan Saladi
Kalyan Saladi
Citations: 16,226
h-index: 6
Eric Michael Smith
Eric Michael Smith
Meta AI
Citations: 19,703
h-index: 18
R. Subramanian
R. Subramanian
Citations: 16,001
h-index: 2
Xia Tan
Xia Tan
Citations: 16,048
h-index: 3
Binh Tang
Binh Tang
Citations: 16,337
h-index: 8
Adina Williams
Adina Williams
Citations: 18,071
h-index: 15
Jian Xiang Kuan
Jian Xiang Kuan
Citations: 16,009
h-index: 3
Zhengxu Yan
Zhengxu Yan
Citations: 16,220
h-index: 7

본 연구에서는 70억 개에서 700억 개의 파라미터 규모를 갖춘 사전 학습 및 미세 조정된 대규모 언어 모델(LLM) 모음인 Llama 2를 개발하고 공개합니다. Llama 2-Chat이라고 명명된 미세 조정된 LLM은 대화형 사용 사례에 최적화되어 있습니다. 우리의 모델은 테스트를 수행한 대부분의 벤치마크에서 오픈 소스 챗 모델보다 뛰어난 성능을 보였으며, 유용성과 안전성에 대한 인적 평가를 토대로 볼 때 비공개형(closed-source) 모델의 적절한 대체재가 될 수 있습니다. 우리는 커뮤니티가 본 연구를 기반으로 발전하고 LLM의 책임감 있는 개발에 기여할 수 있도록, Llama 2-Chat의 미세 조정 및 안전성 개선 접근 방식에 대해 상세히 기술합니다.

Original Abstract

In this work, we develop and release Llama 2, a collection of pretrained and fine-tuned large language models (LLMs) ranging in scale from 7 billion to 70 billion parameters. Our fine-tuned LLMs, called Llama 2-Chat, are optimized for dialogue use cases. Our models outperform open-source chat models on most benchmarks we tested, and based on our human evaluations for helpfulness and safety, may be a suitable substitute for closed-source models. We provide a detailed description of our approach to fine-tuning and safety improvements of Llama 2-Chat in order to enable the community to build on our work and contribute to the responsible development of LLMs.

16073 Citations
2084 Influential
19 Altmetric
20,336.0 Score

AI Analysis

Korean Summary

Meta가 공개한 Llama 2는 70억(7B)에서 700억(70B) 파라미터 규모의 사전 학습 및 미세 조정된 대규모 언어 모델(LLM) 제품군에 대한 연구 논문입니다. Llama 2는 이전 버전 대비 40% 더 많은 2조 개의 토큰으로 학습되었으며, 컨텍스트 길이를 4096 토큰으로 2배 확장했습니다. 특히 대화형 모델인 Llama 2-Chat은 지도 미세 조정(SFT)과 인간 피드백 기반 강화 학습(RLHF)을 통해 최적화되었으며, Ghost Attention(GAtt) 기법을 도입하여 다중 턴 대화의 일관성을 높였습니다. 벤치마크 결과 기존 오픈 소스 모델들을 능가하고 일부 비공개 모델(ChatGPT 등)과 대등한 성능을 보이며, 특히 유용성과 안전성(Safety) 간의 균형을 맞추기 위한 구체적인 방법론을 제시하여 책임감 있는 AI 개발에 기여합니다.

Key Innovations

  • 이전 대비 40% 증가한 2조 토큰 규모의 사전 학습 데이터 사용
  • 기존 모델 대비 2배 확장된 4096 토큰 컨텍스트 윈도우
  • 대규모 모델(34B, 70B)의 추론 효율성을 위한 그룹 쿼리 어텐션(Grouped-Query Attention, GQA) 적용
  • 다중 턴 대화에서 지시 사항 유지를 위한 고스트 어텐션(Ghost Attention, GAtt) 기법
  • 유용성(Helpfulness)과 안전성(Safety)을 분리한 이중 보상 모델(Reward Model) 및 반복적인 RLHF 파이프라인

Learning & Inference Impact

학습 측면에서는 방대한 데이터셋과 엄격한 정제 과정을 통해 모델의 기초 성능을 강화했고, 수천 개의 고품질 SFT 데이터와 100만 개 이상의 인간 선호도 데이터를 활용한 RLHF(거부 샘플링 및 PPO)를 통해 모델의 정렬(Alignment) 성능을 극대화했습니다. 추론 측면에서는 34B 및 70B 모델에 GQA를 적용하여 KV 캐시 크기를 줄임으로써 메모리 효율성과 처리 속도를 크게 향상시켰습니다. 또한, GAtt 기법을 통해 긴 대화 상황에서도 초기 시스템 프롬프트의 제약 조건을 잃지 않고 일관된 답변을 생성할 수 있도록 추론 능력을 개선했습니다.

Technical Difficulty

중급

Estimated implementation complexity based on methodology.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!