2501.12599 Jan 22, 2025 cs.AI

Kimi k1.5: LLM을 활용한 강화학습 확장

Kimi k1.5: Scaling Reinforcement Learning with LLMs

Kimi Team
Kimi Team
Citations: 793
h-index: 1
Angang Du
Angang Du
Citations: 972
h-index: 3
Bofei Gao
Bofei Gao
Citations: 1,036
h-index: 6
Bowei Xing
Bowei Xing
Citations: 982
h-index: 2
Cheng Chen
Cheng Chen
Citations: 1,062
h-index: 6
Cheng Li
Cheng Li
Citations: 979
h-index: 4
Chenjun Xiao
Chenjun Xiao
Citations: 1,087
h-index: 5
Chenzhuang Du
Chenzhuang Du
Citations: 1,826
h-index: 8
Chonghua Liao
Chonghua Liao
Citations: 795
h-index: 2
Chuning Tang
Chuning Tang
Citations: 794
h-index: 1
Congcong Wang
Congcong Wang
Citations: 995
h-index: 3
Dehao Zhang
Dehao Zhang
Citations: 1,585
h-index: 8
Enming Yuan
Enming Yuan
Citations: 1,306
h-index: 6
Enzhe Lu
Enzhe Lu
Citations: 1,453
h-index: 7
Feng Tang
Feng Tang
Citations: 793
h-index: 1
Flood Sung
Flood Sung
Citations: 1,351
h-index: 9
Guangda Wei
Guangda Wei
Citations: 980
h-index: 2
Guokun Lai
Guokun Lai
Citations: 1,454
h-index: 7
Haiqing Guo
Haiqing Guo
Citations: 975
h-index: 3
Han Zhu
Han Zhu
Citations: 1,067
h-index: 4
Haochen Ding
Haochen Ding
Citations: 1,027
h-index: 5
Hao-Xing Hu
Hao-Xing Hu
Citations: 1,185
h-index: 5
Haoming Yang
Haoming Yang
Citations: 794
h-index: 1
Hao Zhang
Hao Zhang
Citations: 978
h-index: 4
Haotian Yao
Haotian Yao
Citations: 1,205
h-index: 5
Hao-Dong Zhao
Hao-Dong Zhao
Citations: 965
h-index: 3
Haoyu Lu
Haoyu Lu
Citations: 1,018
h-index: 4
Hongcheng Gao
Hongcheng Gao
Tsinghua University
Citations: 2,228
h-index: 18
Huabin Zheng
Huabin Zheng
Citations: 1,424
h-index: 6
Huan Yuan
Huan Yuan
Citations: 804
h-index: 2
Jia Chen
Jia Chen
Citations: 819
h-index: 4
Jia-Xing Guo
Jia-Xing Guo
Citations: 978
h-index: 3
Jianling Su
Jianling Su
Citations: 1,296
h-index: 7
Jianzhou Wang
Jianzhou Wang
Citations: 1,343
h-index: 5
Jie Zhao
Jie Zhao
Citations: 803
h-index: 2
Jin Zhang
Jin Zhang
Citations: 793
h-index: 1
Jingyuan Liu
Jingyuan Liu
Citations: 798
h-index: 2
Junjie Yan
Junjie Yan
Citations: 1,487
h-index: 8
Junyan Wu
Junyan Wu
Citations: 1,088
h-index: 3
Li-Na Shi
Li-Na Shi
Citations: 989
h-index: 3
Li-tao Ye
Li-tao Ye
Citations: 799
h-index: 2
Long Yu
Long Yu
Citations: 1,693
h-index: 8
Meng-xiao Dong
Meng-xiao Dong
Citations: 989
h-index: 3
Neo Y. Zhang
Neo Y. Zhang
Citations: 909
h-index: 2
Qi Pan
Qi Pan
Citations: 818
h-index: 2
Shaowei Liu
Shaowei Liu
Citations: 1,919
h-index: 9
Shen Ma
Shen Ma
Citations: 1,013
h-index: 4
Shu-Yan Wei
Shu-Yan Wei
Citations: 810
h-index: 2
S. Cao
S. Cao
Citations: 988
h-index: 3
Si-Da Huang
Si-Da Huang
Citations: 828
h-index: 2
Tao Jiang
Tao Jiang
Citations: 1,154
h-index: 5
Wei-Wei Gao
Wei-Wei Gao
Citations: 810
h-index: 2
Weiming Xiong
Weiming Xiong
Citations: 1,139
h-index: 4
Weiran He
Weiran He
Citations: 1,859
h-index: 10
Weixiao Huang
Weixiao Huang
Citations: 1,207
h-index: 7
Wenhao Wu
Wenhao Wu
Citations: 1,010
h-index: 5
Wen He
Wen He
Citations: 990
h-index: 4
Xian-sen Wei
Xian-sen Wei
Citations: 796
h-index: 2
Xian-Xian Jia
Xian-Xian Jia
Citations: 803
h-index: 2
Xingzhe Wu
Xingzhe Wu
Citations: 1,154
h-index: 4
Xinran Xu
Xinran Xu
Citations: 1,673
h-index: 9
Xinxing Zu
Xinxing Zu
Citations: 1,188
h-index: 6
Xinyu Zhou
Xinyu Zhou
Citations: 827
h-index: 4
Xue-biao Pan
Xue-biao Pan
Citations: 804
h-index: 2
Y. Charles
Y. Charles
Citations: 1,146
h-index: 4
Yang Li
Yang Li
Citations: 1,005
h-index: 4
Yan-Ling Hu
Yan-Ling Hu
Citations: 795
h-index: 2
Yangyang Liu
Yangyang Liu
Citations: 1,128
h-index: 5
Yanru Chen
Yanru Chen
Citations: 1,062
h-index: 6
Ye-Jia Wang
Ye-Jia Wang
Citations: 1,011
h-index: 3
Yibo Liu
Yibo Liu
Citations: 1,337
h-index: 6
Yidao Qin
Yidao Qin
Citations: 1,127
h-index: 3
Yifeng Liu
Yifeng Liu
Citations: 832
h-index: 3
Yingbo Yang
Yingbo Yang
Citations: 799
h-index: 2
Yiping Bao
Yiping Bao
Citations: 1,173
h-index: 5
Yulun Du
Yulun Du
Citations: 1,874
h-index: 10
Yuxin Wu
Yuxin Wu
Citations: 1,477
h-index: 8
Yuzhi Wang
Yuzhi Wang
Citations: 1,604
h-index: 8
Zaida Zhou
Zaida Zhou
Citations: 1,750
h-index: 8
Zhaoji Wang
Zhaoji Wang
Citations: 1,039
h-index: 5
Zhaowei Li
Zhaowei Li
Citations: 1,378
h-index: 9
Zhengxin Zhu
Zhengxin Zhu
Citations: 988
h-index: 5
Zheng Zhang
Zheng Zhang
Citations: 1,345
h-index: 7
Zhexu Wang
Zhexu Wang
Citations: 1,041
h-index: 7
Zhilin Yang
Zhilin Yang
Citations: 1,300
h-index: 5
Zhiqi Huang
Zhiqi Huang
Peking University
Citations: 1,817
h-index: 14
Zihao Huang
Zihao Huang
Citations: 1,169
h-index: 5
Ziya Xu
Ziya Xu
Citations: 793
h-index: 1
Zonghan Yang
Zonghan Yang
Citations: 983
h-index: 4
Changjiu Jiang
Changjiu Jiang
Citations: 795
h-index: 2
Haoze Li
Haoze Li
Citations: 818
h-index: 3
Hao Yu
Hao Yu
Citations: 800
h-index: 2
Ning Ma
Ning Ma
Citations: 808
h-index: 3
Qucheng Gong
Qucheng Gong
Citations: 1,371
h-index: 8

다음 토큰 예측을 통한 언어 모델 사전 학습은 연산 규모를 확장하는 데 효과적임이 입증되었으나, 사용 가능한 훈련 데이터의 양에 의해 제한을 받습니다. 강화학습(RL)의 확장은 인공지능의 지속적인 발전을 위한 새로운 축을 열어주며, 대규모 언어 모델(LLM)이 보상을 통한 탐색을 학습함으로써 스스로 훈련 데이터를 확장할 수 있다는 가능성을 제시합니다. 그러나 기존에 발표된 연구들은 경쟁력 있는 결과를 보여주지 못했습니다. 이러한 배경에서, 우리는 RL로 훈련된 최신 멀티모달 LLM인 Kimi k1.5의 훈련 사례를 보고하며, 여기에는 RL 훈련 기법, 멀티모달 데이터 구성법, 인프라 최적화가 포함됩니다. 긴 문맥(long context) 확장과 개선된 정책 최적화 방법은 우리 접근 방식의 핵심 요소로, 몬테카를로 트리 탐색, 가치 함수, 과정 보상 모델(process reward models)과 같은 복잡한 기술에 의존하지 않고도 단순하고 효과적인 RL 프레임워크를 구축합니다. 특히 우리 시스템은 다양한 벤치마크와 모달리티(예: AIME 77.5점, MATH 500 96.2점, Codeforces 상위 6%, MathVista 74.9점)에서 최첨단(SOTA) 추론 성능을 달성하여 OpenAI의 o1과 대등한 수준을 보입니다. 또한, 우리는 긴 사고 사슬(long-CoT) 기술을 활용하여 짧은 사고 사슬(short-CoT) 모델을 개선하는 효과적인 'long2short' 방법론을 제시합니다. 이는 최고 수준의 short-CoT 추론 결과(예: AIME 60.8점, MATH500 94.6점, LiveCodeBench 47.3점)를 기록하며, GPT-4o나 Claude Sonnet 3.5와 같은 기존 short-CoT 모델들을 큰 격차(최대 +550%)로 능가합니다.

Original Abstract

Language model pretraining with next token prediction has proved effective for scaling compute but is limited to the amount of available training data. Scaling reinforcement learning (RL) unlocks a new axis for the continued improvement of artificial intelligence, with the promise that large language models (LLMs) can scale their training data by learning to explore with rewards. However, prior published work has not produced competitive results. In light of this, we report on the training practice of Kimi k1.5, our latest multi-modal LLM trained with RL, including its RL training techniques, multi-modal data recipes, and infrastructure optimization. Long context scaling and improved policy optimization methods are key ingredients of our approach, which establishes a simplistic, effective RL framework without relying on more complex techniques such as Monte Carlo tree search, value functions, and process reward models. Notably, our system achieves state-of-the-art reasoning performance across multiple benchmarks and modalities -- e.g., 77.5 on AIME, 96.2 on MATH 500, 94-th percentile on Codeforces, 74.9 on MathVista -- matching OpenAI's o1. Moreover, we present effective long2short methods that use long-CoT techniques to improve short-CoT models, yielding state-of-the-art short-CoT reasoning results -- e.g., 60.8 on AIME, 94.6 on MATH500, 47.3 on LiveCodeBench -- outperforming existing short-CoT models such as GPT-4o and Claude Sonnet 3.5 by a large margin (up to +550%).

813 Citations
51 Influential
9 Altmetric
960.0 Score

AI Analysis

Korean Summary

이 논문은 강화학습(RL)을 통해 추론 능력을 확장한 최신 멀티모달 LLM인 'Kimi k1.5'의 기술 보고서입니다. 연구진은 몬테카를로 트리 탐색(MCTS)이나 가치 함수(Value Function)와 같은 복잡한 기법 없이, 긴 문맥(Long Context) 확장과 개선된 정책 최적화 알고리즘만으로도 모델이 계획, 반성, 오류 수정을 수행할 수 있음을 입증했습니다. 특히 긴 사고 과정(Long-CoT)을 통해 얻은 성능을 짧은 문맥 모델로 전이시키는 'Long2Short' 방법론을 제시하여 추론 효율성을 극대화했습니다. 결과적으로 Kimi k1.5는 AIME, MATH, Codeforces 등의 벤치마크에서 OpenAI의 o1과 대등한 성능을 달성했습니다.

Key Innovations

  • 긴 문맥(Long Context) 확장을 통한 강화학습(RL) 스케일링 (최대 128k 토큰)
  • MCTS나 프로세스 보상 모델 없이 정책 최적화만 활용하는 단순화된 RL 프레임워크
  • 긴 추론 궤적을 효율적으로 처리하기 위한 부분 롤아웃(Partial Rollouts) 인프라 기술
  • Long-CoT 모델의 추론 능력을 짧은 모델로 전이하는 Long2Short 기법 (모델 병합, 최단 거부 샘플링 등)
  • 부정적 그라디언트(Negative Gradients)를 포함한 변형된 온라인 미러 하강(Online Mirror Descent) 알고리즘 적용

Learning & Inference Impact

학습 과정에서는 '부분 롤아웃' 시스템을 도입하여 긴 시퀀스 생성을 분할 처리함으로써 메모리 제약을 극복하고 학습 효율을 높였으며, 커리큘럼 및 우선순위 샘플링을 통해 데이터 효율성을 최적화했습니다. 또한, 정답뿐만 아니라 오답에 대한 페널티(부정적 그라디언트)를 부여하여 모델의 학습 속도를 가속화했습니다. 추론 단계에서는 Long-CoT를 통해 복잡한 문제에 대해 깊이 있는 사고를 가능하게 했으며, 이를 다시 Long2Short 기법으로 압축하여 실제 서비스 시에는 적은 토큰 비용으로도 고성능의 추론이 가능하도록 만들었습니다.

Technical Difficulty

고급

Estimated implementation complexity based on methodology.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!