Kimi k1.5: LLM을 활용한 강화학습 확장
Kimi k1.5: Scaling Reinforcement Learning with LLMs
다음 토큰 예측을 통한 언어 모델 사전 학습은 연산 규모를 확장하는 데 효과적임이 입증되었으나, 사용 가능한 훈련 데이터의 양에 의해 제한을 받습니다. 강화학습(RL)의 확장은 인공지능의 지속적인 발전을 위한 새로운 축을 열어주며, 대규모 언어 모델(LLM)이 보상을 통한 탐색을 학습함으로써 스스로 훈련 데이터를 확장할 수 있다는 가능성을 제시합니다. 그러나 기존에 발표된 연구들은 경쟁력 있는 결과를 보여주지 못했습니다. 이러한 배경에서, 우리는 RL로 훈련된 최신 멀티모달 LLM인 Kimi k1.5의 훈련 사례를 보고하며, 여기에는 RL 훈련 기법, 멀티모달 데이터 구성법, 인프라 최적화가 포함됩니다. 긴 문맥(long context) 확장과 개선된 정책 최적화 방법은 우리 접근 방식의 핵심 요소로, 몬테카를로 트리 탐색, 가치 함수, 과정 보상 모델(process reward models)과 같은 복잡한 기술에 의존하지 않고도 단순하고 효과적인 RL 프레임워크를 구축합니다. 특히 우리 시스템은 다양한 벤치마크와 모달리티(예: AIME 77.5점, MATH 500 96.2점, Codeforces 상위 6%, MathVista 74.9점)에서 최첨단(SOTA) 추론 성능을 달성하여 OpenAI의 o1과 대등한 수준을 보입니다. 또한, 우리는 긴 사고 사슬(long-CoT) 기술을 활용하여 짧은 사고 사슬(short-CoT) 모델을 개선하는 효과적인 'long2short' 방법론을 제시합니다. 이는 최고 수준의 short-CoT 추론 결과(예: AIME 60.8점, MATH500 94.6점, LiveCodeBench 47.3점)를 기록하며, GPT-4o나 Claude Sonnet 3.5와 같은 기존 short-CoT 모델들을 큰 격차(최대 +550%)로 능가합니다.
Language model pretraining with next token prediction has proved effective for scaling compute but is limited to the amount of available training data. Scaling reinforcement learning (RL) unlocks a new axis for the continued improvement of artificial intelligence, with the promise that large language models (LLMs) can scale their training data by learning to explore with rewards. However, prior published work has not produced competitive results. In light of this, we report on the training practice of Kimi k1.5, our latest multi-modal LLM trained with RL, including its RL training techniques, multi-modal data recipes, and infrastructure optimization. Long context scaling and improved policy optimization methods are key ingredients of our approach, which establishes a simplistic, effective RL framework without relying on more complex techniques such as Monte Carlo tree search, value functions, and process reward models. Notably, our system achieves state-of-the-art reasoning performance across multiple benchmarks and modalities -- e.g., 77.5 on AIME, 96.2 on MATH 500, 94-th percentile on Codeforces, 74.9 on MathVista -- matching OpenAI's o1. Moreover, we present effective long2short methods that use long-CoT techniques to improve short-CoT models, yielding state-of-the-art short-CoT reasoning results -- e.g., 60.8 on AIME, 94.6 on MATH500, 47.3 on LiveCodeBench -- outperforming existing short-CoT models such as GPT-4o and Claude Sonnet 3.5 by a large margin (up to +550%).
AI Analysis
Korean Summary
Key Innovations
- 긴 문맥(Long Context) 확장을 통한 강화학습(RL) 스케일링 (최대 128k 토큰)
- MCTS나 프로세스 보상 모델 없이 정책 최적화만 활용하는 단순화된 RL 프레임워크
- 긴 추론 궤적을 효율적으로 처리하기 위한 부분 롤아웃(Partial Rollouts) 인프라 기술
- Long-CoT 모델의 추론 능력을 짧은 모델로 전이하는 Long2Short 기법 (모델 병합, 최단 거부 샘플링 등)
- 부정적 그라디언트(Negative Gradients)를 포함한 변형된 온라인 미러 하강(Online Mirror Descent) 알고리즘 적용
Learning & Inference Impact
학습 과정에서는 '부분 롤아웃' 시스템을 도입하여 긴 시퀀스 생성을 분할 처리함으로써 메모리 제약을 극복하고 학습 효율을 높였으며, 커리큘럼 및 우선순위 샘플링을 통해 데이터 효율성을 최적화했습니다. 또한, 정답뿐만 아니라 오답에 대한 페널티(부정적 그라디언트)를 부여하여 모델의 학습 속도를 가속화했습니다. 추론 단계에서는 Long-CoT를 통해 복잡한 문제에 대해 깊이 있는 사고를 가능하게 했으며, 이를 다시 Long2Short 기법으로 압축하여 실제 서비스 시에는 적은 토큰 비용으로도 고성능의 추론이 가능하도록 만들었습니다.
Technical Difficulty
Estimated implementation complexity based on methodology.