본 논문에서는 1200억 개의 파라미터(활성 파라미터 120억 개)를 가지는 Mamba-Attention 혼합 전문가 모델인 Nemotron 3 Super의 사전 훈련, 추가 훈련 및 양자화 과정을 설명합니다. Nemotron 3 Super는 Nemotron 3 제품군에서 처음으로 1) NVFP4에서 사전 훈련되었으며, 2) FLOP당 정확도와 파라미터당 정확도를 모두 최적화하는 새로운 혼합 전문가 아키텍처인 LatentMoE를 활용하고, 3) 네이티브 추론 가속을 위한 MTP 레이어를 포함합니다. Nemotron 3 Super는 25조 개의 토큰으로 사전 훈련을 수행한 후, 지도 학습 미세 조정(SFT) 및 강화 학습(RL)을 통해 추가 훈련을 진행했습니다. 최종 모델은 최대 1M의 컨텍스트 길이를 지원하며, 일반적인 벤치마크에서 GPT-OSS-120B 및 Qwen3.5-122B와 비교하여 동등한 정확도를 달성하는 동시에, 추론 처리량을 각각 최대 2.2배 및 7.5배 향상시켰습니다. Nemotron 3 Super의 데이터셋과 함께, 기본 모델, 추가 훈련된 모델 및 양자화된 모델의 체크포인트는 HuggingFace에서 공개됩니다.
Original
Abstract
We describe the pre-training, post-training, and quantization of Nemotron 3 Super, a 120 billion (active 12 billion) parameter hybrid Mamba-Attention Mixture-of-Experts model. Nemotron 3 Super is the first model in the Nemotron 3 family to 1) be pre-trained in NVFP4, 2) leverage LatentMoE, a new Mixture-of-Experts architecture that optimizes for both accuracy per FLOP and accuracy per parameter, and 3) include MTP layers for inference acceleration through native speculative decoding. We pre-trained Nemotron 3 Super on 25 trillion tokens followed by post-training using supervised fine tuning (SFT) and reinforcement learning (RL). The final model supports up to 1M context length and achieves comparable accuracy on common benchmarks, while also achieving up to 2.2x and 7.5x higher inference throughput compared to GPT-OSS-120B and Qwen3.5-122B, respectively. Nemotron 3 Super datasets, along with the base, post-trained, and quantized checkpoints, are open-sourced on HuggingFace.