2605.01327v1 May 02, 2026 cs.AI

세그먼트 정렬 정책 최적화를 통한 다중 모드 추론

Segment-Aligned Policy Optimization for Multi-Modal Reasoning

Jiakang Yuan
Jiakang Yuan
Fudan University
Citations: 570
h-index: 14
Mengxi Jia
Mengxi Jia
Citations: 6
h-index: 1
Xuelong Li
Xuelong Li
Citations: 25
h-index: 4
Haowen Sun
Haowen Sun
Citations: 25
h-index: 2
Lei Gao
Lei Gao
Citations: 56
h-index: 4
Zhuoming Li
Zhuoming Li
Citations: 9
h-index: 1
Hongbo Sun
Hongbo Sun
Citations: 31
h-index: 3

대규모 언어 모델을 위한 기존 강화 학습 접근 방식은 일반적으로 개별 토큰 또는 전체 응답 시퀀스 수준에서 정책 최적화를 수행합니다. 그러나 이러한 방식은 종종 추론 과정의 자연스러운 단계적 구조와 일치하지 않아, 다중 모드 추론 작업에서 최적의 보상 할당 및 불안정한 학습을 초래합니다. 이러한 격차를 해소하기 위해, 우리는 세그먼트 정렬 정책 최적화(SAPO)라는 새로운 강화 학습 패러다임을 제안합니다. SAPO는 정책 업데이트의 기본 단위로 토큰이나 전체 시퀀스가 아닌, 일관된 추론 단계를 사용합니다. SAPO는 추론 세그먼트에 대한 단계별 마르코프 의사 결정 프로세스 추상화를 도입하고, 추론 경계와 의미적으로 일치하는 세그먼트 수준의 가치 추정, 장점 계산 및 중요 샘플링 메커니즘을 함께 제공합니다. 대표적인 추론 벤치마크에서의 실험 결과, SAPO는 토큰 수준 및 시퀀스 수준 정책 최적화 방법보다 일관되게 우수한 성능을 보이며, 상당한 정확도 향상과 더불어 더 안정적인 학습 및 가치 추정 일관성을 보여줍니다. 본 연구는 강화 학습 업데이트를 추론의 고유한 구조와 일치시키는 것의 중요성을 강조하며, 복잡한 추론 작업에서 보다 효율적이고 의미론적으로 기반한 정책 최적화를 위한 길을 열어줍니다. 코드 및 모델은 완전한 재현성을 보장하기 위해 공개될 예정입니다.

Original Abstract

Existing reinforcement learning approaches for Large Language Models typically perform policy optimization at the granularity of individual tokens or entire response sequences. However, such formulations often misalign with the natural step-wise structure of reasoning processes, leading to suboptimal credit assignment and unstable training in multi-modal reasoning tasks. To bridge this gap, we propose Segment-Aligned Policy Optimization (SAPO), a novel reinforcement learning paradigm that treats coherent reasoning steps, rather than tokens or full sequences as fundamental units of policy update. SAPO introduces a step-wise Markov decision process abstraction over reasoning segments, accompanied by segment-level value estimation, advantage computation, and importance sampling mechanisms that are semantically aligned with reasoning boundaries. Experiments on representative reasoning benchmarks demonstrate that SAPO consistently outperforms token-level and sequence-level policy optimization methods, achieving significant accuracy improvements while exhibiting better training stability and value estimation consistency. Our work underscores the importance of aligning reinforcement learning updates with the intrinsic structure of reasoning, paving the way for more efficient and semantically grounded policy optimization in complex reasoning tasks. Codes and models will be released to ensure full reproducibility.

0 Citations
0 Influential
7 Altmetric
35.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!