LongCat-Flash-Thinking-2601 기술 보고서
LongCat-Flash-Thinking-2601 Technical Report
본 논문에서는 5600억 개의 파라미터를 가진 오픈 소스 Mixture-of-Experts (MoE) 추론 모델인 LongCat-Flash-Thinking-2601을 소개합니다. 이 모델은 뛰어난 자율적 추론 능력을 보유하고 있으며, 다양한 자율적 벤치마크에서 오픈 소스 모델 중 최고 수준의 성능을 달성합니다. 여기에는 자율적 검색, 자율적 도구 사용, 그리고 도구 통합 추론이 포함됩니다. 벤치마크 성능 외에도, LongCat-Flash-Thinking-2601은 복잡한 도구 상호 작용에 대한 강력한 일반화 능력을 보여주며, 노이즈가 많은 실제 환경에서도 안정적인 성능을 유지합니다. 이러한 뛰어난 능력은 도메인 병렬 전문가 훈련과 후속 융합을 결합한 통합 훈련 프레임워크, 그리고 사전 훈련부터 사후 훈련까지 데이터 구축, 환경, 알고리즘, 인프라를 포괄하는 엔드투엔드 공동 설계에서 비롯됩니다. 특히, 복잡한 도구 사용에서의 강력한 일반화 능력은 환경 스케일링에 대한 심층적인 연구와 체계적인 작업 구성에 의해 뒷받침됩니다. 또한, 롱테일 및 편향된 생성, 다중 턴 자율적 상호 작용을 최적화하고, 20개 이상의 도메인을 포괄하는 1만 개 이상의 환경에서 안정적인 훈련을 가능하게 하기 위해, 비동기 강화 학습 프레임워크인 DORA를 체계적으로 확장하여 안정적이고 효율적인 대규모 다중 환경 훈련을 구현했습니다. 더욱이, 실제 작업은 본질적으로 노이즈를 포함하기 때문에, 실제 노이즈 패턴에 대한 체계적인 분석 및 분해를 수행하고, 이러한 불완전성을 훈련 과정에 명시적으로 통합하는 표적 훈련 절차를 설계하여 실제 응용 분야에 대한 향상된 안정성을 확보했습니다. 마지막으로, 복잡한 추론 작업의 성능을 더욱 향상시키기 위해, 추론 깊이와 폭을 동시에 확장하는 집약적인 병렬 추론을 통해 테스트 시간의 효율성을 높이는 Heavy Thinking 모드를 도입했습니다.
We introduce LongCat-Flash-Thinking-2601, a 560-billion-parameter open-source Mixture-of-Experts (MoE) reasoning model with superior agentic reasoning capability. LongCat-Flash-Thinking-2601 achieves state-of-the-art performance among open-source models on a wide range of agentic benchmarks, including agentic search, agentic tool use, and tool-integrated reasoning. Beyond benchmark performance, the model demonstrates strong generalization to complex tool interactions and robust behavior under noisy real-world environments. Its advanced capability stems from a unified training framework that combines domain-parallel expert training with subsequent fusion, together with an end-to-end co-design of data construction, environments, algorithms, and infrastructure spanning from pre-training to post-training. In particular, the model's strong generalization capability in complex tool-use are driven by our in-depth exploration of environment scaling and principled task construction. To optimize long-tailed, skewed generation and multi-turn agentic interactions, and to enable stable training across over 10,000 environments spanning more than 20 domains, we systematically extend our asynchronous reinforcement learning framework, DORA, for stable and efficient large-scale multi-environment training. Furthermore, recognizing that real-world tasks are inherently noisy, we conduct a systematic analysis and decomposition of real-world noise patterns, and design targeted training procedures to explicitly incorporate such imperfections into the training process, resulting in improved robustness for real-world applications. To further enhance performance on complex reasoning tasks, we introduce a Heavy Thinking mode that enables effective test-time scaling by jointly expanding reasoning depth and width through intensive parallel thinking.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.