Gemma: Gemini 연구 및 기술을 기반으로 한 오픈 모델
Gemma: Open Models Based on Gemini Research and Technology
본 연구에서는 Gemini 모델을 만드는 데 사용된 연구 및 기술을 바탕으로 구축된 경량의 최첨단 오픈 모델 제품군인 Gemma를 소개합니다. Gemma 모델은 언어 이해, 추론 및 안전성에 대한 학술 벤치마크 전반에서 강력한 성능을 보여줍니다. 우리는 두 가지 크기(20억 및 70억 매개변수)의 모델을 공개하며, 사전 학습된 체크포인트와 미세 조정된 체크포인트를 모두 제공합니다. Gemma는 18개의 텍스트 기반 작업 중 11개에서 유사한 크기의 오픈 모델보다 뛰어난 성능을 보이며, 모델 개발에 대한 상세한 설명과 함께 모델의 안전성 및 책임성 측면에 대한 포괄적인 평가를 제시합니다. 우리는 책임감 있는 LLM 공개가 프런티어 모델의 안전성을 개선하고 차세대 LLM 혁신을 가능하게 하는 데 중요하다고 믿습니다.
This work introduces Gemma, a family of lightweight, state-of-the art open models built from the research and technology used to create Gemini models. Gemma models demonstrate strong performance across academic benchmarks for language understanding, reasoning, and safety. We release two sizes of models (2 billion and 7 billion parameters), and provide both pretrained and fine-tuned checkpoints. Gemma outperforms similarly sized open models on 11 out of 18 text-based tasks, and we present comprehensive evaluations of safety and responsibility aspects of the models, alongside a detailed description of model development. We believe the responsible release of LLMs is critical for improving the safety of frontier models, and for enabling the next wave of LLM innovations.
AI Analysis
Korean Summary
Key Innovations
- 제미나이(Gemini) 모델 기반의 아키텍처 및 학습 레시피 계승
- 2B 모델에 멀티 쿼리 어텐션(Multi-Query Attention, MQA)을 적용하여 온디바이스 효율성 증대 (7B는 멀티 헤드 어텐션 유지)
- 절대 위치 임베딩 대신 회전 위치 임베딩(RoPE) 사용 및 GeGLU 활성화 함수 도입
- 256k 토큰의 대용량 어휘 사전(Vocabulary)과 8192 토큰의 컨텍스트 길이 지원
- SFT(지도 미세 조정)와 RLHF(인간 피드백 기반 강화 학습)를 결합한 고도화된 튜닝 파이프라인
- TPUv5e 및 JAX/Pathways 인프라를 활용한 대규모 분산 학습 및 최적화
Learning & Inference Impact
학습 과정에서는 TPUv5e와 JAX/Pathways를 활용하여 수천 개의 칩에 걸쳐 모델을 효율적으로 샤딩하고 데이터를 복제하여 학습 속도와 안정성을 확보했습니다. 특히 젬마는 2B 모델 설계 시 멀티 쿼리 어텐션(MQA)을 채택하여 추론 시 KV 캐시 메모리 사용량을 줄이고 속도를 높여 CPU나 모바일 기기(온디바이스) 배포에 유리하도록 설계되었습니다. 반면 7B 모델은 성능 극대화를 위해 멀티 헤드 어텐션을 유지하여 GPU/TPU 환경에서의 고성능 배포에 초점을 맞췄습니다. 또한, 256k의 큰 어휘 사전은 다국어 처리 및 압축 효율에 기여하지만 모델 크기를 일부 증가시키는 요인이 되기도 합니다. 학습 데이터 필터링과 RLHF 단계는 모델의 환각을 줄이고 안전성을 높이는 데 결정적인 역할을 수행했습니다.
Technical Difficulty
Estimated implementation complexity based on methodology.