Llama 2: 개방형 파운데이션 및 미세 조정된 챗 모델
Llama 2: Open Foundation and Fine-Tuned Chat Models
본 연구에서는 70억 개에서 700억 개의 파라미터 규모를 갖춘 사전 학습 및 미세 조정된 대규모 언어 모델(LLM) 모음인 Llama 2를 개발하고 공개합니다. Llama 2-Chat이라고 명명된 미세 조정된 LLM은 대화형 사용 사례에 최적화되어 있습니다. 우리의 모델은 테스트를 수행한 대부분의 벤치마크에서 오픈 소스 챗 모델보다 뛰어난 성능을 보였으며, 유용성과 안전성에 대한 인적 평가를 토대로 볼 때 비공개형(closed-source) 모델의 적절한 대체재가 될 수 있습니다. 우리는 커뮤니티가 본 연구를 기반으로 발전하고 LLM의 책임감 있는 개발에 기여할 수 있도록, Llama 2-Chat의 미세 조정 및 안전성 개선 접근 방식에 대해 상세히 기술합니다.
In this work, we develop and release Llama 2, a collection of pretrained and fine-tuned large language models (LLMs) ranging in scale from 7 billion to 70 billion parameters. Our fine-tuned LLMs, called Llama 2-Chat, are optimized for dialogue use cases. Our models outperform open-source chat models on most benchmarks we tested, and based on our human evaluations for helpfulness and safety, may be a suitable substitute for closed-source models. We provide a detailed description of our approach to fine-tuning and safety improvements of Llama 2-Chat in order to enable the community to build on our work and contribute to the responsible development of LLMs.
AI Analysis
Korean Summary
Key Innovations
- 이전 대비 40% 증가한 2조 토큰 규모의 사전 학습 데이터 사용
- 기존 모델 대비 2배 확장된 4096 토큰 컨텍스트 윈도우
- 대규모 모델(34B, 70B)의 추론 효율성을 위한 그룹 쿼리 어텐션(Grouped-Query Attention, GQA) 적용
- 다중 턴 대화에서 지시 사항 유지를 위한 고스트 어텐션(Ghost Attention, GAtt) 기법
- 유용성(Helpfulness)과 안전성(Safety)을 분리한 이중 보상 모델(Reward Model) 및 반복적인 RLHF 파이프라인
Learning & Inference Impact
학습 측면에서는 방대한 데이터셋과 엄격한 정제 과정을 통해 모델의 기초 성능을 강화했고, 수천 개의 고품질 SFT 데이터와 100만 개 이상의 인간 선호도 데이터를 활용한 RLHF(거부 샘플링 및 PPO)를 통해 모델의 정렬(Alignment) 성능을 극대화했습니다. 추론 측면에서는 34B 및 70B 모델에 GQA를 적용하여 KV 캐시 크기를 줄임으로써 메모리 효율성과 처리 속도를 크게 향상시켰습니다. 또한, GAtt 기법을 통해 긴 대화 상황에서도 초기 시스템 프롬프트의 제약 조건을 잃지 않고 일관된 답변을 생성할 수 있도록 추론 능력을 개선했습니다.
Technical Difficulty
Estimated implementation complexity based on methodology.