LongCat-Flash-Thinking-2601 기술 보고서
LongCat-Flash-Thinking-2601 Technical Report
우리는 탁월한 에이전트 추론 능력을 갖춘 5,600억 파라미터 규모의 오픈 소스 MoE(Mixture-of-Experts) 추론 모델인 LongCat-Flash-Thinking-2601을 소개합니다. LongCat-Flash-Thinking-2601은 에이전트 검색, 에이전트 도구 사용, 도구 통합 추론을 포함한 광범위한 에이전트 벤치마크에서 오픈 소스 모델 중 최고 수준(SOTA)의 성능을 달성했습니다. 벤치마크 성능을 넘어, 이 모델은 복잡한 도구 상호작용에 대한 강력한 일반화 성능과 노이즈가 많은 실제 환경에서의 견고한 동작을 보여줍니다. 이러한 향상된 능력은 도메인 병렬 전문가 훈련과 후속 융합을 결합한 통합 훈련 프레임워크와, 사전 훈련부터 사후 훈련에 이르기까지 데이터 구축, 환경, 알고리즘, 인프라를 아우르는 엔드투엔드 공동 설계에서 비롯됩니다. 특히, 복잡한 도구 사용에서의 강력한 일반화 능력은 환경 확장에 대한 심도 있는 탐구와 원칙에 기반한 작업(task) 구축을 통해 가능해졌습니다. 롱테일 분포의 편향된 생성과 멀티턴 에이전트 상호작용을 최적화하고, 20개 이상의 도메인에 걸친 10,000개 이상의 환경에서 안정적인 훈련을 가능하게 하기 위해, 우리는 안정적이고 효율적인 대규모 다중 환경 훈련을 위해 비동기 강화학습 프레임워크인 DORA를 체계적으로 확장했습니다. 또한, 실제 작업에는 본질적으로 노이즈가 존재한다는 점을 인식하여, 실제 노이즈 패턴을 체계적으로 분석 및 분해하고, 이러한 불완전성을 훈련 과정에 명시적으로 반영하는 목표 훈련 절차를 설계함으로써 실제 애플리케이션에 대한 견고성을 향상시켰습니다. 복잡한 추론 작업의 성능을 더욱 향상시키기 위해, 집약적인 병렬 사고를 통해 추론의 깊이와 너비를 동시에 확장하여 효과적인 테스트 타임 스케일링(test-time scaling)을 가능하게 하는 'Heavy Thinking' 모드를 도입했습니다.
We introduce LongCat-Flash-Thinking-2601, a 560-billion-parameter open-source Mixture-of-Experts (MoE) reasoning model with superior agentic reasoning capability. LongCat-Flash-Thinking-2601 achieves state-of-the-art performance among open-source models on a wide range of agentic benchmarks, including agentic search, agentic tool use, and tool-integrated reasoning. Beyond benchmark performance, the model demonstrates strong generalization to complex tool interactions and robust behavior under noisy real-world environments. Its advanced capability stems from a unified training framework that combines domain-parallel expert training with subsequent fusion, together with an end-to-end co-design of data construction, environments, algorithms, and infrastructure spanning from pre-training to post-training. In particular, the model's strong generalization capability in complex tool-use are driven by our in-depth exploration of environment scaling and principled task construction. To optimize long-tailed, skewed generation and multi-turn agentic interactions, and to enable stable training across over 10,000 environments spanning more than 20 domains, we systematically extend our asynchronous reinforcement learning framework, DORA, for stable and efficient large-scale multi-environment training. Furthermore, recognizing that real-world tasks are inherently noisy, we conduct a systematic analysis and decomposition of real-world noise patterns, and design targeted training procedures to explicitly incorporate such imperfections into the training process, resulting in improved robustness for real-world applications. To further enhance performance on complex reasoning tasks, we introduce a Heavy Thinking mode that enables effective test-time scaling by jointly expanding reasoning depth and width through intensive parallel thinking.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.