본 논문에서는 Step 3.5 Flash를 소개합니다. 이는 최첨단 수준의 에이전트 지능과 계산 효율성을 결합한 희소한 Mixture-of-Experts (MoE) 모델입니다. 에이전트 구축 시 가장 중요한 요소인 정확한 추론 능력과 빠르고 안정적인 실행 능력을 중심으로 설계되었습니다. Step 3.5 Flash는 1960억 개의 파라미터로 구성된 기반 모델과 110억 개의 활성 파라미터를 사용하여 효율적인 추론을 가능하게 합니다. 또한, 다중 라운드 에이전트 상호 작용의 지연 시간과 비용을 줄이기 위해 3:1의 인터리브된 슬라이딩 윈도우/전체 어텐션 및 Multi-Token Prediction (MTP-3) 기술이 적용되었습니다. 최첨단 수준의 지능을 달성하기 위해, 검증 가능한 신호와 선호도 피드백을 결합한 확장 가능한 강화 학습 프레임워크를 설계했습니다. 이 프레임워크는 대규모 오프라인 학습 환경에서도 안정성을 유지하며, 수학, 코딩 및 도구 사용 능력 전반에 걸쳐 일관된 자기 개선을 가능하게 합니다. Step 3.5 Flash는 에이전트, 코딩 및 수학 관련 작업에서 뛰어난 성능을 보여주며, IMO-AnswerBench에서 85.4%, LiveCodeBench-v6 (2024.08-2025.05)에서 86.4%, tau2-Bench에서 88.2%, BrowseComp (컨텍스트 관리 포함)에서 69.0%, Terminal-Bench 2.0에서 51.0%의 정확도를 달성했습니다. 이는 GPT-5.2 xHigh 및 Gemini 3.0 Pro와 같은 최첨단 모델과 비교 가능한 수준입니다. Step 3.5 Flash는 효율성의 한계를 재정의함으로써, 실제 산업 환경에서 정교한 에이전트를 배포하기 위한 고밀도의 기반 모델을 제공합니다.
Original
Abstract
We introduce Step 3.5 Flash, a sparse Mixture-of-Experts (MoE) model that bridges frontier-level agentic intelligence and computational efficiency. We focus on what matters most when building agents: sharp reasoning and fast, reliable execution. Step 3.5 Flash pairs a 196B-parameter foundation with 11B active parameters for efficient inference. It is optimized with interleaved 3:1 sliding-window/full attention and Multi-Token Prediction (MTP-3) to reduce the latency and cost of multi-round agentic interactions. To reach frontier-level intelligence, we design a scalable reinforcement learning framework that combines verifiable signals with preference feedback, while remaining stable under large-scale off-policy training, enabling consistent self-improvement across mathematics, code, and tool use. Step 3.5 Flash demonstrates strong performance across agent, coding, and math tasks, achieving 85.4% on IMO-AnswerBench, 86.4% on LiveCodeBench-v6 (2024.08-2025.05), 88.2% on tau2-Bench, 69.0% on BrowseComp (with context management), and 51.0% on Terminal-Bench 2.0, comparable to frontier models such as GPT-5.2 xHigh and Gemini 3.0 Pro. By redefining the efficiency frontier, Step 3.5 Flash provides a high-density foundation for deploying sophisticated agents in real-world industrial environments.