2602.20945v1 Feb 24, 2026 cs.CL

효율적인 추론의 기술: 데이터, 보상, 그리고 최적화

The Art of Efficient Reasoning: Data, Reward, and Optimization

Zenan Xu
Zenan Xu
Citations: 22
h-index: 3
Ngai Wong
Ngai Wong
Citations: 184
h-index: 6
Taiqiang Wu
Taiqiang Wu
Citations: 27
h-index: 3
Bohai Zhou
Bohai Zhou
Citations: 0
h-index: 0

대규모 언어 모델(LLM)은 체인 오브 쏘트(Chain-of-Thought, CoT) 추론을 통해 일관된 성능 향상을 보이지만, 동시에 상당한 계산 비용을 초래합니다. 이러한 문제를 해결하기 위해, 효율적인 추론은 강화 학습(Reinforcement Learning, RL)을 통해 보상 형성을 사용하여 짧지만 정확한 사고 경로를 유도하는 것을 목표로 합니다. 본 논문에서는 LLM을 위한 효율적인 추론의 작동 원리를 체계적으로 연구합니다. 종합적인 평가를 위해, 정확도를 기준으로 한 길이 분포 및 2k에서 32k까지 다양한 토큰 예산을 활용한 성능 등 세분화된 지표를 사용합니다. 먼저, 학습 과정이 길이 적응 및 추론 개선이라는 두 단계로 진행된다는 것을 밝혀냅니다. 이후, 통일된 프로토콜 하에서 방대한 실험(약 0.2백만 GPU 시간)을 수행하여 학습 프롬프트, 실행 과정, 보상 형성, 그리고 최적화 전략을 분석합니다. 특히, 중요한 발견 중 하나는 비교적 쉬운 프롬프트를 사용하여 훈련함으로써, 긍정적인 보상 신호의 밀도를 높이고, 결과적으로 길이 감소를 방지할 수 있다는 것입니다. 또한, 학습된 길이 편향은 다양한 도메인으로 일반화될 수 있습니다. 본 연구에서 얻은 모든 결과들을 유용한 통찰력과 실용적인 지침으로 정리하고, 0.6B에서 30B까지 다양한 크기의 Qwen3 시리즈 모델을 사용하여 그 견고성과 일반화 가능성을 검증합니다.

Original Abstract

Large Language Models (LLMs) consistently benefit from scaled Chain-of-Thought (CoT) reasoning, but also suffer from heavy computational overhead. To address this issue, efficient reasoning aims to incentivize short yet accurate thinking trajectories, typically through reward shaping with Reinforcement Learning (RL). In this paper, we systematically investigate the mechanics of efficient reasoning for LLMs. For comprehensive evaluation, we advocate for more fine-grained metrics, including length distribution conditioned on correctness and performance across a wide spectrum of token budgets ranging from 2k to 32k. First, we reveal that the training process follows a two-stage paradigm: length adaptation and reasoning refinement. After that, we conduct extensive experiments (about 0.2 million GPU hours) in a unified protocol, deconstructing training prompts and rollouts, reward shaping, and optimization strategies. In particular, a key finding is to train on relatively easier prompts, ensuring the density of positive reward signals and thus avoiding the length collapse. Meanwhile, the learned length bias can be generalized across domains. We distill all findings into valuable insights and practical guidelines, and further validate them across the Qwen3 series, ranging from 0.6B to 30B, demonstrating the robustness and generalization.

0 Citations
0 Influential
3 Altmetric
15.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!