본 논문에서는 일반적인 에이전트 지능을 발전시키기 위해 설계된 오픈 소스 멀티모달 에이전트 모델인 키미 K2.5를 소개합니다. K2.5는 텍스트와 비전의 상호 보완적인 최적화를 강조하며, 이를 위해 텍스트-비전 사전 훈련, 제로-비전 지도 학습(SFT), 텍스트-비전 강화 학습 등 다양한 기술을 사용합니다. 이러한 멀티모달 기반을 바탕으로, K2.5는 Agent Swarm이라는 자체적으로 작동하는 병렬 에이전트 오케스트레이션 프레임워크를 도입합니다. Agent Swarm은 복잡한 작업을 동적으로 이질적인 하위 문제로 분해하고 동시에 실행합니다. 광범위한 평가 결과, 키미 K2.5는 코딩, 비전, 추론 및 에이전트 관련 작업 등 다양한 분야에서 최첨단 성능을 달성했습니다. 또한 Agent Swarm은 단일 에이전트 기반 모델에 비해 최대 4.5배의 지연 시간 감소를 보여줍니다. 향후 에이전트 지능 연구 및 실제 응용 분야를 촉진하기 위해, 사전 훈련된 키미 K2.5 모델 체크포인트를 공개합니다.
Original
Abstract
We introduce Kimi K2.5, an open-source multimodal agentic model designed to advance general agentic intelligence. K2.5 emphasizes the joint optimization of text and vision so that two modalities enhance each other. This includes a series of techniques such as joint text-vision pre-training, zero-vision SFT, and joint text-vision reinforcement learning. Building on this multimodal foundation, K2.5 introduces Agent Swarm, a self-directed parallel agent orchestration framework that dynamically decomposes complex tasks into heterogeneous sub-problems and executes them concurrently. Extensive evaluations show that Kimi K2.5 achieves state-of-the-art results across various domains including coding, vision, reasoning, and agentic tasks. Agent Swarm also reduces latency by up to $4.5\times$ over single-agent baselines. We release the post-trained Kimi K2.5 model checkpoint to facilitate future research and real-world applications of agentic intelligence.