2603.01641v1 Mar 02, 2026 cs.AI

구조화된 추론을 통한 추론 경로 제어 학습

Learning Structured Reasoning via Tractable Trajectory Control

Cheng Yang
Cheng Yang
Citations: 185
h-index: 7
Po-Nien Kung
Po-Nien Kung
Citations: 250
h-index: 7
H. Deng
H. Deng
Citations: 671
h-index: 3
Zi-Yi Dou
Zi-Yi Dou
Citations: 3,492
h-index: 23
Nanyun Peng
Nanyun Peng
Citations: 1,484
h-index: 19
Zhe Gan
Zhe Gan
Citations: 477
h-index: 5
Zhen Yang
Zhen Yang
Citations: 84
h-index: 3
Jeffrey Luo
Jeffrey Luo
Citations: 0
h-index: 0
Yinfei Yang
Yinfei Yang
Citations: 2,096
h-index: 20
Kai-Wei Chang
Kai-Wei Chang
Citations: 276
h-index: 3

대규모 언어 모델은 때때로 놀라운 추론 능력을 보여주는데, 이는 종종 반복되는 어휘 패턴(예: '기다리다', 검증을 나타냄)으로 나타납니다. 그러나 제약 없는 샘플링에서는 복잡한 추론 경로는 여전히 희소하며, 일반적인 강화 학습은 다양한 추론 능력을 습득하도록 보장하지 못합니다. 본 연구에서는 구조화된 추론이라는 패러다임을 통해 다양한 추론 패턴을 체계적으로 발견하고 강화하는 방법을 제안합니다. 구조화된 추론은 강화 학습 과정에서 특정 추론 패턴을 목표로 탐색하도록 유도합니다. 이를 위해 Ctrl-R이라는 프레임워크를 제안합니다. Ctrl-R은 추론 경로 제어를 통해 구조화된 추론을 학습하며, 롤아웃 과정을 적극적으로 안내하여 복잡한 문제 해결에 중요한 다양한 추론 패턴을 탐색하도록 장려합니다. 결과적으로 생성된 행동 정책은 정확한 중요 샘플링 추정 기능을 제공하며, 편향되지 않은 온-정책 최적화를 지원합니다. 또한, 중요 샘플링 가중치에 파워 스케일링 계수를 도입하여 정책이 안정적인 최적화를 유지하면서도 탐색적이고 분포 외부의 추론 경로로부터 선택적으로 학습할 수 있도록 합니다. 실험 결과는 Ctrl-R이 효과적인 탐색과 이전에 얻을 수 없었던 추론 패턴의 내면화를 가능하게 하며, 수학적 추론 작업에서 언어 모델 및 시각-언어 모델 모두에서 일관된 성능 향상을 가져온다는 것을 보여줍니다.

Original Abstract

Large language models can exhibit emergent reasoning behaviors, often manifested as recurring lexical patterns (e.g., "wait," indicating verification). However, complex reasoning trajectories remain sparse in unconstrained sampling, and standard RL often fails to guarantee the acquisition of diverse reasoning behaviors. We propose a systematic discovery and reinforcement of diverse reasoning patterns through structured reasoning, a paradigm that requires targeted exploration of specific reasoning patterns during the RL process. To this end, we propose Ctrl-R, a framework for learning structured reasoning via tractable trajectory control that actively guides the rollout process, incentivizing the exploration of diverse reasoning patterns that are critical for complex problem-solving. The resulting behavior policy enables accurate importance-sampling estimation, supporting unbiased on-policy optimization. We further introduce a power-scaling factor on the importance-sampling weights, allowing the policy to selectively learn from exploratory, out-of-distribution trajectories while maintaining stable optimization. Experiments demonstrate that Ctrl-R enables effective exploration and internalization of previously unattainable reasoning patterns, yielding consistent improvements across language and vision-language models on mathematical reasoning tasks.

0 Citations
0 Influential
11.5 Altmetric
57.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!