목록 기반 정책 최적화: 그룹 기반 강화 학습 보상 기반 방법론을 LLM 응답 심플렉스 상의 목표 투영으로 해석
Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex
검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추가 학습 단계에서 추론 능력을 향상시키는 표준적인 방법으로 자리 잡았습니다. 기존 방법 중, 프롬프트당 여러 응답을 샘플링하고 그룹 상대적 이점 신호를 통해 정책을 업데이트하는 그룹 기반 정책 경사 방법이 널리 사용됩니다. 본 연구에서는 이러한 최적화 전략들이 공통적인 기하학적 구조를 가지고 있음을 밝히고, 각 전략이 암묵적으로 응답 심플렉스 상에 목표 분포를 정의하고, 1차 근사를 통해 이를 향해 투영한다는 것을 보여줍니다. 이러한 통찰력을 바탕으로, 우리는 목표 투영을 명시적으로 수행하는 목록 기반 정책 최적화(LPO)를 제안합니다. LPO는 근위 RL 목표를 응답 심플렉스에 제한하여 암묵적인 목표를 명확히 하고, 정확한 발산 최소화를 통해 정책을 투영합니다. 이 프레임워크는 (i) 제한적이고, 영-합이며, 자기 교정 기능을 갖는 투영 경사를 통해 목록 기반 목표에 대한 단조적인 개선을 제공하며, (ii) 분리된 투영 단계를 통해 다양한 구조적 특성을 갖는 발산 선택의 유연성을 제공합니다. 다양한 추론 작업 및 LLM 아키텍처에서, LPO는 동일한 목표를 설정했을 때 일반적인 정책 경사 방법보다 일관되게 더 나은 학습 성능을 보이며, 동시에 최적화의 안정성과 응답 다양성을 유지합니다.
Reinforcement learning with verifiable rewards (RLVR) has become a standard approach for large language models (LLMs) post-training to incentivize reasoning capacity. Among existing recipes, group-based policy gradient is prevalent, which samples a group of responses per prompt and updates the policy via group-relative advantage signals. This work reveals that these optimization strategies share a common geometric structure: each implicitly defines a target distribution on the response simplex and projects toward it via first-order approximation. Building on this insight, we propose Listwise Policy Optimization (LPO) to explicitly conduct the target-projection, which demystifies the implicit target by restricting the proximal RL objective to the response simplex, and then projects the policy via exact divergence minimization. This framework provides (i) monotonic improvement on the listwise objective with bounded, zero-sum, and self-correcting projection gradients, and (ii) flexibility in divergence selection with distinct structural properties through the decoupled projection step. On diverse reasoning tasks and LLM backbones, LPO consistently improves training performance over typical policy gradient baselines under matched targets, while intrinsically preserving optimization stability and response diversity.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.