2602.22146v1 Feb 25, 2026 cs.LG

낙관적 프라이멀-듀얼 방법을 이용한 다중 목적 안전 LLM 정렬의 증명 가능한 최종 반복 수렴

Provable Last-Iterate Convergence for Multi-Objective Safe LLM Alignment via Optimistic Primal-Dual

Yining Li
Yining Li
Citations: 23
h-index: 3
N. Shroff
N. Shroff
Citations: 185
h-index: 6
Peizhong Ju
Peizhong Ju
Citations: 10
h-index: 2

강화 학습 기반 인간 피드백(RLHF)은 대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 데 중요한 역할을 합니다. 기대 보상 제약 조건이 있는 RLHF는 프라이멀-듀얼 최적화 문제로 표현될 수 있지만, 표준 프라이멀-듀얼 방법은 분포 정책에서 saddle-point 문제가 볼록-오목 형태일 때만 수렴을 보장합니다. 또한, 실제 응용 분야에서 정책 매개변수화 하에 표준 프라이멀-듀얼 방법은 불안정성이나 발산을 나타낼 수 있습니다. 본 연구에서는 안전 RLHF를 위한 범용 프라이멀-듀얼 프레임워크를 제안하며, 이는 safe-RLHF, one-shot 및 multi-shot 기반 방법과 같은 다양한 기존 정렬 알고리즘을 통합합니다. 이 프레임워크를 기반으로, 프라이멀 및 듀얼 변수에 대한 예측적 업데이트를 통합하여 saddle-point 동역학을 안정화하는 낙관적 프라이멀-듀얼(OPD) 알고리즘을 소개합니다. 제안된 방법에 대한 최종 반복 수렴 보장을 확립했으며, 이는 분포 공간에서의 정확한 정책 최적화와 매개변수화된 정책 하에서의 근사 오차 및 편향과 관련된 간극을 통해 최적 솔루션의 이웃으로의 수렴을 모두 포함합니다. 우리의 분석 결과, 낙관성은 제약 조건이 있는 정렬 목표에서 발생하는 진동을 완화하는 데 중요한 역할을 하며, 이는 제약 조건이 있는 강화 학습과 실제 RLHF 간의 중요한 이론적 격차를 해소합니다.

Original Abstract

Reinforcement Learning from Human Feedback (RLHF) plays a significant role in aligning Large Language Models (LLMs) with human preferences. While RLHF with expected reward constraints can be formulated as a primal-dual optimization problem, standard primal-dual methods only guarantee convergence with a distributional policy where the saddle-point problem is in convex-concave form. Moreover, standard primal-dual methods may exhibit instability or divergence in the last iterate under policy parameterization in practical applications. In this work, we propose a universal primal-dual framework for safe RLHF that unifies a broad class of existing alignment algorithms, including safe-RLHF, one-shot, and multi-shot based methods. Building on this framework, we introduce an optimistic primal-dual (OPD) algorithm that incorporates predictive updates for both primal and dual variables to stabilize saddle-point dynamics. We establish last-iterate convergence guarantees for the proposed method, covering both exact policy optimization in the distributional space and convergence to a neighborhood of the optimal solution whose gap is related to approximation error and bias under parameterized policies. Our analysis reveals that optimism plays a crucial role in mitigating oscillations inherent to constrained alignment objectives, thereby closing a key theoretical gap between constrained RL and practical RLHF.

0 Citations
0 Influential
3 Altmetric
15.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!