KLong: 초장기 작업을 위한 LLM 에이전트 학습
KLong: Training LLM Agent for Extremely Long-horizon Tasks
본 논문에서는 극도로 긴 범위의 작업을 해결하도록 학습된 오픈소스 LLM 에이전트인 KLong을 소개한다. 핵심 원리는 먼저 궤적 분할(trajectory-splitting) SFT를 통해 모델을 콜드 스타트한 다음, 점진적 강화학습(progressive RL)을 통해 모델을 확장하는 것이다. 구체적으로, 우리는 포괄적인 SFT 레시피를 통해 기본 모델의 기초적인 에이전트 능력을 먼저 활성화한다. 그런 다음 연구 논문을 수집하고 평가 루브릭을 구성하여 고품질의 학습 데이터를 생성하는 자동화된 파이프라인인 Research-Factory를 도입한다. 이 파이프라인을 사용하여 Claude 4.5 Sonnet(Thinking) 모델에서 증류된 수천 개의 장기 궤적을 구축한다. 이러한 극도로 긴 궤적으로 학습하기 위해 우리는 초기 문맥을 보존하고 후반부 문맥을 점진적으로 잘라내며 하위 궤적 간의 중첩을 유지하는 새로운 궤적 분할 SFT를 제안한다. 아울러 초장기 작업 해결 능력을 더욱 향상시키기 위해, 점진적으로 늘어나는 타임아웃에 따라 학습을 여러 단계로 계획하는 새로운 점진적 강화학습 방법을 제안한다. 그림 1에 나타난 바와 같이, 실험을 통해 KLong의 우수성과 일반화 성능을 입증한다. 특히, 제안된 KLong(106B) 모델은 PaperBench에서 Kimi K2 Thinking(1T) 모델을 11.28% 능가했으며, 이러한 성능 향상은 SWE-bench Verified 및 MLE-bench와 같은 다른 코딩 벤치마크에도 일반화됨을 확인하였다.
This paper introduces KLong, an open-source LLM agent trained to solve extremely long-horizon tasks. The principle is to first cold-start the model via trajectory-splitting SFT, then scale it via progressive RL training. Specifically, we first activate basic agentic abilities of a base model with a comprehensive SFT recipe. Then, we introduce Research-Factory, an automated pipeline that generates high-quality training data by collecting research papers and constructing evaluation rubrics. Using this pipeline, we build thousands of long-horizon trajectories distilled from Claude 4.5 Sonnet (Thinking). To train with these extremely long trajectories, we propose a new trajectory-splitting SFT, which preserves early context, progressively truncates later context, and maintains overlap between sub-trajectories. In addition, to further improve long-horizon task-solving capability, we propose a novel progressive RL, which schedules training into multiple stages with progressively extended timeouts. Experiments demonstrate the superiority and generalization of KLong, as shown in Figure 1. Notably, our proposed KLong (106B) surpasses Kimi K2 Thinking (1T) by 11.28% on PaperBench, and the performance improvement generalizes to other coding benchmarks like SWE-bench Verified and MLE-bench.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.