네모트론-카스케이드 2: 캐스케이드 강화 학습 및 다중 도메인 온폴리시 증류를 활용한 사후 학습 LLM
Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation
본 논문에서는 30억 개의 파라미터를 가진 MoE 모델인 네모트론-카스케이드 2를 소개합니다. 이 모델은 활성화된 30억 개의 파라미터를 사용하여 최고의 추론 성능과 강력한 에이전트 기능을 제공합니다. 비교적 작은 크기에도 불구하고, 수학 및 코딩 추론 성능은 최첨단 오픈 모델에 근접합니다. 이 모델은 딥시크 V3.2-스페셜-671B-A37B에 이어, 2025 국제 수학 올림피아드(IMO), 국제 정보 올림피아드(IOI) 및 ICPC 세계 결승전에서 금메달 수준의 성능을 달성한 두 번째 오픈 웨이트 LLM입니다. 이는 20배 적은 파라미터로 매우 높은 지능 밀도를 보여줍니다. 네모트론-카스케이드 1과 비교하여, 주요 기술적 개선 사항은 다음과 같습니다. 신중하게 선별된 데이터셋에 대한 지도 학습(SFT) 후, 캐스케이드 강화 학습(Cascade RL)을 크게 확장하여 추론 및 에이전트 기능의 훨씬 더 넓은 영역을 포괄합니다. 또한, 캐스케이드 RL 과정 전반에 걸쳐 각 도메인에서 가장 강력한 중간 모델을 활용한 다중 도메인 온폴리시 증류를 도입하여, 벤치마크 성능 저하를 효율적으로 복구하고 지속적인 성능 향상을 유지할 수 있습니다. 모델 체크포인트 및 학습 데이터를 공개합니다.
We introduce Nemotron-Cascade 2, an open 30B MoE model with 3B activated parameters that delivers best-in-class reasoning and strong agentic capabilities. Despite its compact size, its mathematical and coding reasoning performance approaches that of frontier open models. It is the second open-weight LLM, after DeepSeekV3.2-Speciale-671B-A37B, to achieve Gold Medal-level performance in the 2025 International Mathematical Olympiad (IMO), the International Olympiad in Informatics (IOI), and the ICPC World Finals, demonstrating remarkably high intelligence density with 20x fewer parameters. In contrast to Nemotron-Cascade 1, the key technical advancements are as follows. After SFT on a meticulously curated dataset, we substantially expand Cascade RL to cover a much broader spectrum of reasoning and agentic domains. Furthermore, we introduce multi-domain on-policy distillation from the strongest intermediate teacher models for each domain throughout the Cascade RL process, allowing us to efficiently recover benchmark regressions and sustain strong performance gains along the way. We release the collection of model checkpoint and training data.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.