MiMo-V2-Flash 기술 보고서
MiMo-V2-Flash Technical Report
본 연구에서는 총 3090억 개의 파라미터와 150억 개의 활성 파라미터를 가진 Mixture-of-Experts (MoE) 모델인 MiMo-V2-Flash를 소개합니다. MiMo-V2-Flash는 빠르고 강력한 추론 능력과 에이전트 기능을 갖도록 설계되었습니다. 이 모델은 Sliding Window Attention (SWA)과 전역 어텐션을 결합한 하이브리드 어텐션 아키텍처를 채택하며, 5:1의 비율로 128 토큰의 슬라이딩 윈도우를 사용합니다. MiMo-V2-Flash는 Multi-Token Prediction (MTP)을 사용하여 27조 개의 토큰으로 사전 학습되었으며, 원래 32k의 컨텍스트 길이를 사용하고 이후 256k로 확장되었습니다. MiMo-V2-Flash는 학습 후 계산 비용을 효율적으로 줄이기 위해 새로운 Multi-Teacher On-Policy Distillation (MOPD) 패러다임을 도입했습니다. 이 프레임워크에서, 도메인 전문성을 가진 가상의 교사 모델(예: 대규모 강화 학습을 통해 훈련된 모델)은 학생 모델에게 밀집되고 토큰 수준의 보상을 제공하여, 학생 모델이 교사 모델의 전문성을 완벽하게 습득할 수 있도록 합니다. MiMo-V2-Flash는 DeepSeek-V3.2 및 Kimi-K2와 같은 최상위 오픈 소스 모델과 경쟁력을 갖추고 있으며, 각각 총 파라미터 수의 1/2 및 1/3만을 사용합니다. 추론 과정에서, MTP를 스펙티브 디코딩을 위한 초안 모델로 활용하여 MiMo-V2-Flash는 최대 3.6배의 수용 길이 증가와 2.6배의 디코딩 속도 향상을 달성했습니다. MiMo-V2-Flash의 모델 가중치와 3계층 MTP 가중치를 공개하여, 오픈 연구 및 커뮤니티 협력을 장려하고자 합니다.
We present MiMo-V2-Flash, a Mixture-of-Experts (MoE) model with 309B total parameters and 15B active parameters, designed for fast, strong reasoning and agentic capabilities. MiMo-V2-Flash adopts a hybrid attention architecture that interleaves Sliding Window Attention (SWA) with global attention, with a 128-token sliding window under a 5:1 hybrid ratio. The model is pre-trained on 27 trillion tokens with Multi-Token Prediction (MTP), employing a native 32k context length and subsequently extended to 256k. To efficiently scale post-training compute, MiMo-V2-Flash introduces a novel Multi-Teacher On-Policy Distillation (MOPD) paradigm. In this framework, domain-specialized teachers (e.g., trained via large-scale reinforcement learning) provide dense and token-level reward, enabling the student model to perfectly master teacher expertise. MiMo-V2-Flash rivals top-tier open-weight models such as DeepSeek-V3.2 and Kimi-K2, despite using only 1/2 and 1/3 of their total parameters, respectively. During inference, by repurposing MTP as a draft model for speculative decoding, MiMo-V2-Flash achieves up to 3.6 acceptance length and 2.6x decoding speedup with three MTP layers. We open-source both the model weights and the three-layer MTP weights to foster open research and community collaboration.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.