DeepSeek-R1: 강화 학습을 통한 대규모 언어 모델(LLM)의 추론 능력 유도
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
일반적인 추론 능력은 인공지능 분야에서 오랫동안 해결하기 어려운 난제였다. 대규모 언어 모델(LLM)과 생각의 사슬(Chain-of-Thought) 프롬프팅으로 대표되는 최근의 기술적 혁신은 기초적인 추론 작업에서 상당한 성공을 거두었다. 그러나 이러한 성공은 사람이 직접 주석을 단 방대한 시연 데이터에 크게 의존하고 있으며, 더 복잡한 문제에 대한 모델의 능력은 여전히 부족하다. 본 연구에서는 사람이 라벨링한 추론 궤적 없이도 순수 강화 학습(RL)을 통해 LLM의 추론 능력을 유도할 수 있음을 보여준다. 제안된 RL 프레임워크는 자기 성찰, 검증, 동적 전략 적응과 같은 고도화된 추론 패턴의 창발적 발전을 촉진한다. 결과적으로 훈련된 모델은 수학, 코딩 대회, STEM 분야 등 검증 가능한 작업에서 우수한 성능을 달성하였으며, 사람의 시연을 기반으로 한 기존의 지도 학습 방식으로 훈련된 모델들의 성능을 능가했다. 또한, 이러한 대규모 모델에서 나타난 창발적 추론 패턴은 더 작은 모델들의 추론 능력을 지도하고 향상시키는 데 체계적으로 활용될 수 있다.
General reasoning represents a long-standing and formidable challenge in artificial intelligence. Recent breakthroughs, exemplified by large language models (LLMs) and chain-of-thought prompting, have achieved considerable success on foundational reasoning tasks. However, this success is heavily contingent upon extensive human-annotated demonstrations, and models' capabilities are still insufficient for more complex problems. Here we show that the reasoning abilities of LLMs can be incentivized through pure reinforcement learning (RL), obviating the need for human-labeled reasoning trajectories. The proposed RL framework facilitates the emergent development of advanced reasoning patterns, such as self-reflection, verification, and dynamic strategy adaptation. Consequently, the trained model achieves superior performance on verifiable tasks such as mathematics, coding competitions, and STEM fields, surpassing its counterparts trained via conventional supervised learning on human demonstrations. Moreover, the emergent reasoning patterns exhibited by these large-scale models can be systematically harnessed to guide and enhance the reasoning capabilities of smaller models.
AI Analysis
Korean Summary
Key Innovations
- GRPO(Group Relative Policy Optimization): 기존 PPO 대비 가치 모델(Value Model)을 제거하여 메모리 효율을 높이고 학습을 간소화한 강화학습 알고리즘 도입
- 순수 강화학습을 통한 추론 발현: 인간의 개입 없이 규칙 기반 보상만으로 긴 사고 과정(Long Chain-of-Thought)과 자가 수정 능력이 자연스럽게 등장함
- 다단계 훈련 파이프라인: Cold Start SFT, 추론 중심 RL, 일반 SFT, 모든 시나리오를 위한 RL을 결합하여 성능과 사용자 친화성을 동시에 확보
- 지식 증류(Distillation): DeepSeek-R1의 추론 패턴을 학습 데이터로 사용하여 소형 모델(1.5B~70B)의 성능을 획기적으로 향상시킴
Learning & Inference Impact
학습 과정에서는 GRPO 알고리즘을 통해 비평가(Critic) 모델 없이 그룹 단위의 상대적 우위를 계산함으로써 대규모 모델의 강화학습 비용을 절감했습니다. 추론 과정(Test-time)에서는 모델이 문제의 난이도에 따라 사고 토큰(thinking tokens)의 길이를 동적으로 조절하며, 문제를 해결하기 위해 스스로 수천 토큰 이상의 중간 추론 단계를 생성합니다. 이는 모델이 답변을 내기 전에 스스로 오류를 검증하고 전략을 수정하는 '테스트 시간 컴퓨팅(Test-time Compute)' 확장을 가능하게 하여 복잡한 문제 해결 능력을 비약적으로 상승시켰습니다.
Technical Difficulty
Estimated implementation complexity based on methodology.