Llama-Nemotron: 효율적인 추론 모델
Llama-Nemotron: Efficient Reasoning Models
우리는 뛰어난 추론 능력, 추론 효율성, 그리고 기업용 오픈 라이선스를 제공하는 이기종 추론 모델의 개방형 제품군인 Llama-Nemotron 모델 시리즈를 소개합니다. 이 제품군은 Nano(8B), Super(49B), Ultra(253B)의 세 가지 크기로 제공되며, DeepSeek-R1과 같은 최첨단 추론 모델과 경쟁할 수 있는 성능을 발휘하는 동시에 더 우수한 추론 처리량과 메모리 효율성을 제공합니다. 본 보고서에서는 가속화된 추론을 위해 Llama 3 모델 기반의 신경망 아키텍처 탐색, 지식 증류, 지속적인 사전 훈련을 활용하고, 이어서 지도 미세 조정과 대규모 강화 학습이라는 두 가지 주요 부분으로 구성된 추론 중심의 사후 훈련 단계를 거치는 이 모델들의 훈련 절차에 대해 논의합니다. Llama-Nemotron 모델은 동적 추론 토글을 지원하는 최초의 오픈 소스 모델로서, 사용자가 추론 중에 표준 채팅 모드와 추론 모드 사이를 전환할 수 있도록 합니다. 열린 연구를 더욱 지원하고 모델 개발을 촉진하기 위해 우리는 다음의 리소스를 제공합니다: 1. 상업적 이용이 허용되는 NVIDIA 오픈 모델 라이선스 계약하에 Llama-Nemotron 추론 모델(LN-Nano, LN-Super, LN-Ultra)을 공개합니다. 2. 전체 사후 훈련 데이터셋인 Llama-Nemotron-Post-Training-Dataset을 공개합니다. 3. 훈련 코드베이스인 NeMo, NeMo-Aligner, Megatron-LM을 공개합니다.
We introduce the Llama-Nemotron series of models, an open family of heterogeneous reasoning models that deliver exceptional reasoning capabilities, inference efficiency, and an open license for enterprise use. The family comes in three sizes -- Nano (8B), Super (49B), and Ultra (253B) -- and performs competitively with state-of-the-art reasoning models such as DeepSeek-R1 while offering superior inference throughput and memory efficiency. In this report, we discuss the training procedure for these models, which entails using neural architecture search from Llama 3 models for accelerated inference, knowledge distillation, and continued pretraining, followed by a reasoning-focused post-training stage consisting of two main parts: supervised fine-tuning and large scale reinforcement learning. Llama-Nemotron models are the first open-source models to support a dynamic reasoning toggle, allowing users to switch between standard chat and reasoning modes during inference. To further support open research and facilitate model development, we provide the following resources: 1. We release the Llama-Nemotron reasoning models -- LN-Nano, LN-Super, and LN-Ultra -- under the commercially permissive NVIDIA Open Model License Agreement. 2. We release the complete post-training dataset: Llama-Nemotron-Post-Training-Dataset. 3. We also release our training codebases: NeMo, NeMo-Aligner, and Megatron-LM.
AI Analysis
Korean Summary
Key Innovations
- Puzzle 프레임워크 기반 NAS (블록 단위 증류 및 Attention 메커니즘 제거)
- FFN Fusion (연속된 FFN 블록을 병합하여 레이어 깊이 및 지연 시간 감소)
- 동적 추론 토글 (Dynamic Reasoning Toggle) 기능
- 대규모 강화학습을 위한 GRPO(Group Relative Policy Optimization) 알고리즘 적용
- FP8 생성 및 훈련/추론 병합을 통한 인프라 메모리 최적화
Learning & Inference Impact
추론 측면에서는 NAS와 FFN Fusion 기술을 통해 불필요한 연산을 줄여, LN-Ultra(253B) 모델이 단일 8xH100 노드에서 DeepSeek-R1보다 높은 처리량으로 구동될 수 있게 하였습니다. 학습 과정에서는 강력한 교사 모델의 추론 과정을 증류(SFT)한 후, 대규모 RL을 적용하여 학생 모델이 교사 모델의 성능 한계를 뛰어넘도록(Self-improvement) 설계되었습니다. 또한, 커리큘럼 학습 방식을 도입하여 학습 안정성을 높였습니다.
Technical Difficulty
Estimated implementation complexity based on methodology.