2602.02545v1 Jan 30, 2026 cs.LG

정렬을 넘어: 다양체 변형 정책 최적화를 통한 추론 능력 확장

Beyond Alignment: Expanding Reasoning Capacity via Manifold-Reshaping Policy Optimization

Dayu Wang
Dayu Wang
Citations: 3
h-index: 1
Jiaye Yang
Jiaye Yang
Citations: 2
h-index: 1
Weikang Li
Weikang Li
Citations: 17
h-index: 3
Jiahui Liang
Jiahui Liang
Citations: 2
h-index: 1
Yang Li
Yang Li
Citations: 9
h-index: 2

검증 가능한 보상을 사용한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 데 놀라운 성공을 거두었습니다. 그러나 최근 연구에서는 RL이 실제로 추론 능력을 확장하는 것인지, 아니면 단순히 기존의 잠재적 능력을 정렬하는 것인지에 대한 의문이 제기되었습니다. 이러한 연구는 탐색이 여전히 사전 훈련된 모델의 저차원 편향 다양체 내에 제한되어 있다고 주장합니다. 본 연구에서는 이러한 접근성 경계 가설에 도전하며, 표적화된 기하학적 개입을 통해 잠재적 추론 공간을 근본적으로 확장할 수 있음을 보여줍니다. 우리는 대규모 언어 모델의 추론 공간을 근본적으로 재구성하도록 설계된 기하학적 프레임워크인 다양체 변형 정책 최적화(MRPO)를 제안합니다. MRPO는 두 단계로 작동합니다. 첫째, 스펙트럴 직교 탐색(SOE)을 사용하여 정책 초기화를 편향 다양체의 널 공간으로 이동시킵니다. 둘째, 정책 최적화 목표에 효과적인 순위 정규화 항을 통합합니다. 이 접근 방식은 표준 강화 학습의 엔트로피 감소 경향에 대항하여 고차원 추론 경로의 발견과 유지에 대한 인센티브를 제공합니다. 실험적으로, 40억 개의 파라미터를 가진 우리의 방법은 수학적 작업에서 최첨단 성능을 달성했으며, 더 큰 모델(예: Qwen3-32B)보다 훨씬 뛰어난 성능을 보이며 표준 GRPO의 능력 경계를 확장했습니다. 우리의 코드는 https://anonymous.4open.science/r/MRPO-D57B/ 에서 확인할 수 있습니다.

Original Abstract

Reinforcement Learning with Verifiable Rewards (RLVR) has demonstrated remarkable success in enhancing the reasoning capabilities of Large Language Models (LLMs). However, recent studies question whether RL genuinely expands reasoning capacity or merely aligns existing latent capabilities, arguing that exploration remains confined within the pre-trained model's low-rank bias manifold. In this work, we challenge this accessibility boundary hypothesis by demonstrating that the latent reasoning space can be fundamentally expanded through targeted geometric interventions. We propose Manifold-Reshaping Policy Optimization (MRPO), a geometric framework designed to fundamentally restructure the inference space of LLMs. MRPO operates in two stages: first, we employ Spectral Orthogonal Exploration (SOE) to eject the policy initialization into the null space of the bias manifold; second, we integrate an Effective Rank regularization term into the policy optimization objective. This approach incentivizes the discovery and maintenance of high-dimensional reasoning trajectories against the entropy-reducing tendency of standard RL. Empirically, our 4B-parameter method achieves state-of-the-art performance on mathematical tasks, significantly outperforming larger models (e.g., Qwen3-32B) and expanding the capability boundary beyond standard GRPO. Our code is available at https://anonymous.4open.science/r/MRPO-D57B/

1 Citations
0 Influential
1.5 Altmetric
8.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!