2604.08865v1 Apr 10, 2026 cs.AI

SPPO: 장기 추론 과제에 대한 시퀀스 레벨 PPO

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

Yixia Li
Yixia Li
Southern University of Science and Technology
Citations: 141
h-index: 6
Long Li
Long Li
Citations: 52
h-index: 4
Yibiao Chen
Yibiao Chen
Citations: 20
h-index: 3
Tianyi Wang
Tianyi Wang
Citations: 21
h-index: 2
Shaohan Huang
Shaohan Huang
Citations: 5
h-index: 1
Yun Chen
Yun Chen
Citations: 218
h-index: 6
Peng Li
Peng Li
Citations: 458
h-index: 6
Yang Liu
Yang Liu
Citations: 32
h-index: 4
Guanhua Chen
Guanhua Chen
Southern University of Science and Technology
Citations: 529
h-index: 10

Proximal Policy Optimization (PPO)은 검증 가능한 보상을 통해 추론 과제에서 대규모 언어 모델(LLM)을 정렬하는 데 중요한 역할을 합니다. 그러나 표준 토큰 레벨 PPO는 긴 Chain-of-Thought (CoT) 구간에서의 시간적 신용 할당 불안정성과 값 모델의 과도한 메모리 비용으로 인해 이러한 설정에서 어려움을 겪습니다. Critic-free 방식인 GRPO는 이러한 문제를 완화하지만, 기준선 추정을 위해 여러 샘플을 필요로 하여 상당한 계산 오버헤드를 발생시키고, 이는 학습 처리량을 심각하게 제한합니다. 본 논문에서는 시퀀스 레벨 PPO (SPPO)를 소개합니다. SPPO는 PPO의 샘플 효율성을 유지하면서 결과 기반 업데이트의 안정성을 결합하는 확장 가능한 알고리즘입니다. SPPO는 추론 과정을 시퀀스 레벨 컨텍스추얼 밴딧 문제로 재구성하고, 다중 샘플링 없이 낮은 분산의 이점 신호를 얻기 위해 분리된 스칼라 값 함수를 사용합니다. 수학적 벤치마크에 대한 광범위한 실험 결과, SPPO는 표준 PPO보다 훨씬 우수한 성능을 보이며, 계산 비용이 높은 그룹 기반 방법과 동등한 성능을 제공합니다. SPPO는 추론 LLM을 정렬하는 데 있어 효율적인 프레임워크를 제공합니다.

Original Abstract

Proximal Policy Optimization (PPO) is central to aligning Large Language Models (LLMs) in reasoning tasks with verifiable rewards. However, standard token-level PPO struggles in this setting due to the instability of temporal credit assignment over long Chain-of-Thought (CoT) horizons and the prohibitive memory cost of the value model. While critic-free alternatives like GRPO mitigate these issues, they incur significant computational overhead by requiring multiple samples for baseline estimation, severely limiting training throughput. In this paper, we introduce Sequence-Level PPO (SPPO), a scalable algorithm that harmonizes the sample efficiency of PPO with the stability of outcome-based updates. SPPO reformulates the reasoning process as a Sequence-Level Contextual Bandit problem, employing a decoupled scalar value function to derive low-variance advantage signals without multi-sampling. Extensive experiments on mathematical benchmarks demonstrate that SPPO significantly surpasses standard PPO and matches the performance of computation-heavy group-based methods, offering a resource-efficient framework for aligning reasoning LLMs.

2 Citations
0 Influential
5 Altmetric
27.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!