2501.12948 Jan 22, 2025 cs.AI

DeepSeek-R1: 강화 학습을 통한 대규모 언어 모델(LLM)의 추론 능력 유도

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-AI

Citations: 9,796

h-index: 4

Daya Guo

Citations: 30,337

h-index: 26

Dejian Yang

Citations: 12,758

h-index: 11

Haowei Zhang

Citations: 10,217

h-index: 8

Jun-Mei Song

Citations: 17,942

h-index: 11

Ruoyu Zhang

Citations: 9,434

h-index: 6

R. Xu

Citations: 17,610

h-index: 6

Qihao Zhu

Citations: 19,846

h-index: 13

Shirong Ma

Citations: 11,173

h-index: 10

Peiyi Wang

Citations: 9,625

h-index: 6

Xiaoling Bi

Citations: 9,391

h-index: 5

Xiaokang Zhang

Citations: 9,456

h-index: 6

Xingkai Yu

Citations: 12,204

h-index: 10

Yu Wu

Citations: 13,161

h-index: 27

Z. F. Wu

Citations: 9,799

h-index: 7

Zhibin Gou

Tsinghua University

Citations: 12,300

h-index: 18

Zhihong Shao

Citations: 21,017

h-index: 15

Zhuoshu Li

Citations: 10,221

h-index: 6

Ziyi Gao

Citations: 9,404

h-index: 6

A. Liu

Citations: 11,209

h-index: 8

Bing Xue

Citations: 9,405

h-index: 6

Bing-Li Wang

Citations: 12,058

h-index: 9

Bochao Wu

Citations: 9,409

h-index: 6

B. Feng

Citations: 9,391

h-index: 5

Chengda Lu

Citations: 9,493

h-index: 8

Chenggang Zhao

Citations: 11,855

h-index: 12

C. Deng

Citations: 12,481

h-index: 11

Chenyu Zhang

Citations: 8,857

h-index: 4

C. Ruan

Citations: 14,978

h-index: 15

Damai Dai

Citations: 11,189

h-index: 12

Deli Chen

Citations: 12,464

h-index: 9

Dong-Li Ji

Citations: 9,395

h-index: 5

Erhang Li

Citations: 10,152

h-index: 6

Fangyun Lin

Citations: 10,158

h-index: 6

Fucong Dai

Citations: 9,391

h-index: 5

Fuli Luo

Citations: 12,872

h-index: 10

Guangbo Hao

Citations: 10,175

h-index: 7

Guanting Chen

Citations: 11,867

h-index: 7

H. Zhang

Citations: 9,386

h-index: 5

Han Bao

Citations: 8,869

h-index: 5

Hanwei Xu

Citations: 11,449

h-index: 9

Haocheng Wang

Citations: 9,727

h-index: 15

Honghui Ding

Citations: 10,180

h-index: 6

Huajian Xin

Citations: 10,998

h-index: 12

Huazuo Gao

Citations: 12,776

h-index: 12

Hui Qu

Citations: 8,819

h-index: 3

Hui Li

Citations: 9,399

h-index: 5

Jianzhong Guo

Citations: 10,183

h-index: 7

Jiashi Li

Citations: 11,666

h-index: 10

Jiawei Wang

Citations: 5,386

h-index: 4

JingChang Chen

Citations: 9,401

h-index: 5

Jingyang Yuan

Citations: 9,851

h-index: 8

Junjie Qiu

Citations: 10,178

h-index: 6

Junlong Li

Citations: 9,443

h-index: 6

J. Ni

Citations: 9,393

h-index: 5

Jian Liang

Citations: 9,396

h-index: 5

Jin Chen

Citations: 9,421

h-index: 7

Kai Dong

Citations: 13,214

h-index: 11

Kai Hu

Citations: 9,471

h-index: 6

Kaige Gao

Citations: 10,157

h-index: 6

Kang Guan

Citations: 11,208

h-index: 8

Kexin Huang

Citations: 9,449

h-index: 8

K. Yu

Citations: 9,374

h-index: 4

Lean Wang

Citations: 9,834

h-index: 7

Lecong Zhang

Citations: 10,143

h-index: 5

Liang Zhao

Citations: 10,538

h-index: 8

Litong Wang

Citations: 9,558

h-index: 11

Liyue Zhang

Citations: 11,089

h-index: 10

Lei Xu

Citations: 9,466

h-index: 6

Leyi Xia

Citations: 9,382

h-index: 4

Minghua Zhang

Citations: 9,391

h-index: 4

M. Tang

Citations: 5,436

h-index: 5

Meng Li

Citations: 9,387

h-index: 4

Miaojun Wang

Citations: 9,392

h-index: 5

Mingming Li

Citations: 9,394

h-index: 5

Ning Tian

Citations: 9,418

h-index: 6

Panpan Huang

Citations: 10,640

h-index: 8

Peng Zhang

Citations: 9,417

h-index: 7

Qiancheng Wang

Citations: 9,502

h-index: 6

Qinyu Chen

Citations: 9,885

h-index: 6

Qiushi Du

Citations: 10,809

h-index: 9

Ruiqi Ge

Citations: 10,197

h-index: 6

Ruisong Zhang

Citations: 9,382

h-index: 4

Ruizhe Pan

Citations: 9,458

h-index: 5

Runji Wang

Citations: 9,385

h-index: 4

R. J. Chen

Citations: 9,385

h-index: 4

R. Jin

Citations: 9,388

h-index: 4

Ruyi Chen

Citations: 9,431

h-index: 6

Shanghao Lu

Citations: 10,177

h-index: 7

Shangyan Zhou

Citations: 10,315

h-index: 8

Shanhuang Chen

Citations: 10,174

h-index: 6

Shengfeng Ye

Citations: 8,873

h-index: 4

Shiyu Wang

Citations: 9,374

h-index: 5

Shuiping Yu

Citations: 10,195

h-index: 7

Shunfeng Zhou

Citations: 10,150

h-index: 6

Shuting Pan

Citations: 9,359

h-index: 4

S. Li

Citations: 9,359

h-index: 4

Shuang Zhou

Citations: 9,451

h-index: 6

Shao-Kang Wu

Citations: 5,922

h-index: 3

Tao Yun

Citations: 9,359

h-index: 4

Tian Pei

Citations: 10,253

h-index: 8

T. Sun

Citations: 9,376

h-index: 5

T. Wang

Citations: 8,824

h-index: 4

Wangding Zeng

Citations: 11,212

h-index: 9

Wanjia Zhao

Stanford University

Citations: 9,338

h-index: 8

Wen Liu

Citations: 11,265

h-index: 8

W. Liang

Citations: 13,772

h-index: 14

Wenjun Gao

Citations: 11,027

h-index: 10

Wen-Xia Yu

Citations: 5,368

h-index: 1

Wentao Zhang

Citations: 5,994

h-index: 4

W. Xiao

Citations: 9,143

h-index: 6

Wei An

Citations: 9,408

h-index: 5

Xiaodong Liu

Citations: 10,209

h-index: 9

Xiaohan Wang

Citations: 9,397

h-index: 5

Xiaokang Chen

Citations: 11,295

h-index: 9

X. Nie

Citations: 10,191

h-index: 7

Xin Cheng

Citations: 10,436

h-index: 12

Xin Liu

Citations: 8,889

h-index: 5

Xin Xie

Citations: 11,198

h-index: 8

Xingchao Liu

Citations: 11,352

h-index: 9

Xinyu Yang

Citations: 9,386

h-index: 5

Xinyuan Li

Citations: 9,383

h-index: 4

Xuecheng Su

Citations: 10,173

h-index: 6

Xuheng Lin

Citations: 9,382

h-index: 4

X. Q. Li

Citations: 9,355

h-index: 4

Xiangyu Jin

Citations: 9,561

h-index: 7

Xi-Cheng Shen

Citations: 8,869

h-index: 4

Xiaosha Chen

Citations: 9,472

h-index: 5

Xiaowen Sun

Citations: 9,383

h-index: 4

Xiaoxiang Wang

Citations: 8,818

h-index: 3

Xinnan Song

Citations: 9,359

h-index: 4

Xinyi Zhou

Citations: 9,360

h-index: 4

Xianzu Wang

Citations: 9,382

h-index: 4

Xinxia Shan

Citations: 8,823

h-index: 4

Y. K. Li

Citations: 19,105

h-index: 7

Y. Q. Wang

Citations: 9,359

h-index: 4

Y. X. Wei

Citations: 9,213

h-index: 4

Yang Zhang

Citations: 8,947

h-index: 4

Yanhong Xu

Citations: 10,144

h-index: 5

Yao Li

Citations: 19,482

h-index: 7

Yao Zhao

Citations: 10,155

h-index: 5

Yaofeng Sun

Citations: 11,701

h-index: 9

Yaohui Wang

Citations: 10,653

h-index: 7

Yi Yu

Citations: 8,821

h-index: 3

Yichao Zhang

Citations: 9,387

h-index: 4

Yifan Shi

Citations: 9,359

h-index: 4

Yi Xiong

Citations: 9,407

h-index: 6

Ying He

Citations: 9,503

h-index: 6

Y. Piao

Citations: 11,177

h-index: 7

Yisong Wang

Citations: 10,119

h-index: 6

Yixuan Tan

Citations: 9,406

h-index: 6

Yiyang Ma

Citations: 5,909

h-index: 3

Yiyuan Liu

Citations: 10,140

h-index: 5

Yongqiang Guo

Citations: 9,412

h-index: 6

Y. Ou

Citations: 9,359

h-index: 4

Yuduan Wang

Citations: 9,360

h-index: 4

Yue Gong

Citations: 9,464

h-index: 7

Yu-Jing Zou

Citations: 5,372

h-index: 2

Yujia He

Citations: 8,824

h-index: 4

Yunfan Xiong

Citations: 9,444

h-index: 6

Yu-Wei Luo

Citations: 9,416

h-index: 5

Yu-mei You

Citations: 11,144

h-index: 6

Yuxuan Liu

Citations: 9,687

h-index: 6

Yuyang Zhou

Citations: 9,360

h-index: 4

Y. X. Zhu

Citations: 9,359

h-index: 4

Yanping Huang

Citations: 9,437

h-index: 5

Yi Zheng

Citations: 8,824

h-index: 3

Yuchen Zhu

Citations: 9,356

h-index: 4

Yunxiang Ma

Citations: 9,395

h-index: 5

Ying Tang

Citations: 9,361

h-index: 4

Y. Zha

Citations: 9,358

h-index: 4

Yuting Yan

Citations: 8,986

h-index: 5

Z. Ren

Citations: 19,577

h-index: 10

Zhangli Sha

Citations: 10,143

h-index: 5

Zhe Fu

Citations: 10,396

h-index: 7

Zhean Xu

Citations: 9,413

h-index: 4

Zhenda Xie

Citations: 16,518

h-index: 16

Zhen-guo Zhang

Citations: 9,364

h-index: 4

Zhewen Hao

Citations: 10,625

h-index: 6

Zhicheng Ma

Citations: 9,361

h-index: 4

Zhigang Yan

Citations: 9,354

h-index: 4

Zhiyu Wu

Citations: 11,255

h-index: 8

Zihui Gu

Citations: 9,838

h-index: 5

Zijia Zhu

Citations: 9,354

h-index: 4

Zijun Liu

Tsinghua University

Citations: 9,656

h-index: 10

Ziwei Xie

Citations: 10,147

h-index: 5

Ziyang Song

Citations: 8,833

h-index: 4

Zizheng Pan

Citations: 11,225

h-index: 7

Zhen Huang

Citations: 9,434

h-index: 6

Zhipeng Xu

Citations: 9,352

h-index: 3

Zhongyu Zhang

Citations: 9,384

h-index: 5

Zhen Zhang

Citations: 9,374

h-index: 5

Mingchuan Zhang

Citations: 18,423

h-index: 21

J. Cai

Citations: 9,463

h-index: 7

Zi-Long Li

Citations: 8,823

h-index: 4

Guowei Li

Citations: 10,169

h-index: 6

일반적인 추론 능력은 인공지능 분야에서 오랫동안 해결하기 어려운 난제였다. 대규모 언어 모델(LLM)과 생각의 사슬(Chain-of-Thought) 프롬프팅으로 대표되는 최근의 기술적 혁신은 기초적인 추론 작업에서 상당한 성공을 거두었다. 그러나 이러한 성공은 사람이 직접 주석을 단 방대한 시연 데이터에 크게 의존하고 있으며, 더 복잡한 문제에 대한 모델의 능력은 여전히 부족하다. 본 연구에서는 사람이 라벨링한 추론 궤적 없이도 순수 강화 학습(RL)을 통해 LLM의 추론 능력을 유도할 수 있음을 보여준다. 제안된 RL 프레임워크는 자기 성찰, 검증, 동적 전략 적응과 같은 고도화된 추론 패턴의 창발적 발전을 촉진한다. 결과적으로 훈련된 모델은 수학, 코딩 대회, STEM 분야 등 검증 가능한 작업에서 우수한 성능을 달성하였으며, 사람의 시연을 기반으로 한 기존의 지도 학습 방식으로 훈련된 모델들의 성능을 능가했다. 또한, 이러한 대규모 모델에서 나타난 창발적 추론 패턴은 더 작은 모델들의 추론 능력을 지도하고 향상시키는 데 체계적으로 활용될 수 있다.

Original Abstract

General reasoning represents a long-standing and formidable challenge in artificial intelligence. Recent breakthroughs, exemplified by large language models (LLMs) and chain-of-thought prompting, have achieved considerable success on foundational reasoning tasks. However, this success is heavily contingent upon extensive human-annotated demonstrations, and models' capabilities are still insufficient for more complex problems. Here we show that the reasoning abilities of LLMs can be incentivized through pure reinforcement learning (RL), obviating the need for human-labeled reasoning trajectories. The proposed RL framework facilitates the emergent development of advanced reasoning patterns, such as self-reflection, verification, and dynamic strategy adaptation. Consequently, the trained model achieves superior performance on verifiable tasks such as mathematics, coding competitions, and STEM fields, surpassing its counterparts trained via conventional supervised learning on human demonstrations. Moreover, the emergent reasoning patterns exhibited by these large-scale models can be systematically harnessed to guide and enhance the reasoning capabilities of smaller models.

5351 Citations

927 Influential

13.5 Altmetric

7,272.5 Score

Original PDF

AI Analysis

Korean Summary

이 논문은 대규모 언어 모델(LLM)의 추론 능력을 극대화하기 위해 순수 강화학습(Reinforcement Learning)을 활용한 DeepSeek-R1-Zero와 DeepSeek-R1 모델을 제안합니다. 연구진은 지도 학습(SFT) 없이 강화학습만으로도 모델이 자아 성찰(self-reflection) 및 검증과 같은 복잡한 추론 패턴을 스스로 학습할 수 있음을 증명했습니다. 그러나 초기 모델인 R1-Zero의 가독성 및 언어 혼합 문제를 해결하기 위해, 소량의 고품질 데이터를 활용한 '콜드 스타트(Cold Start)'와 다단계 학습 파이프라인을 도입하여 최종적으로 DeepSeek-R1을 완성했습니다. 이 모델은 수학, 코딩 등 복잡한 추론 작업에서 OpenAI의 o1-1217과 대등한 성능을 달성했으며, 이러한 강력한 추론 능력을 소형 모델에 효과적으로 증류(Distillation)할 수 있음을 보여주었습니다.

Key Innovations

GRPO(Group Relative Policy Optimization): 기존 PPO 대비 가치 모델(Value Model)을 제거하여 메모리 효율을 높이고 학습을 간소화한 강화학습 알고리즘 도입
순수 강화학습을 통한 추론 발현: 인간의 개입 없이 규칙 기반 보상만으로 긴 사고 과정(Long Chain-of-Thought)과 자가 수정 능력이 자연스럽게 등장함
다단계 훈련 파이프라인: Cold Start SFT, 추론 중심 RL, 일반 SFT, 모든 시나리오를 위한 RL을 결합하여 성능과 사용자 친화성을 동시에 확보
지식 증류(Distillation): DeepSeek-R1의 추론 패턴을 학습 데이터로 사용하여 소형 모델(1.5B~70B)의 성능을 획기적으로 향상시킴

Learning & Inference Impact

학습 과정에서는 GRPO 알고리즘을 통해 비평가(Critic) 모델 없이 그룹 단위의 상대적 우위를 계산함으로써 대규모 모델의 강화학습 비용을 절감했습니다. 추론 과정(Test-time)에서는 모델이 문제의 난이도에 따라 사고 토큰(thinking tokens)의 길이를 동적으로 조절하며, 문제를 해결하기 위해 스스로 수천 토큰 이상의 중간 추론 단계를 생성합니다. 이는 모델이 답변을 내기 전에 스스로 오류를 검증하고 전략을 수정하는 '테스트 시간 컴퓨팅(Test-time Compute)' 확장을 가능하게 하여 복잡한 문제 해결 능력을 비약적으로 상승시켰습니다.

Technical Difficulty

고급

Estimated implementation complexity based on methodology.

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!