낙관적 프라이멀-듀얼 방법을 이용한 다중 목적 안전 LLM 정렬의 증명 가능한 최종 반복 수렴
Provable Last-Iterate Convergence for Multi-Objective Safe LLM Alignment via Optimistic Primal-Dual
강화 학습 기반 인간 피드백(RLHF)은 대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 데 중요한 역할을 합니다. 기대 보상 제약 조건이 있는 RLHF는 프라이멀-듀얼 최적화 문제로 표현될 수 있지만, 표준 프라이멀-듀얼 방법은 분포 정책에서 saddle-point 문제가 볼록-오목 형태일 때만 수렴을 보장합니다. 또한, 실제 응용 분야에서 정책 매개변수화 하에 표준 프라이멀-듀얼 방법은 불안정성이나 발산을 나타낼 수 있습니다. 본 연구에서는 안전 RLHF를 위한 범용 프라이멀-듀얼 프레임워크를 제안하며, 이는 safe-RLHF, one-shot 및 multi-shot 기반 방법과 같은 다양한 기존 정렬 알고리즘을 통합합니다. 이 프레임워크를 기반으로, 프라이멀 및 듀얼 변수에 대한 예측적 업데이트를 통합하여 saddle-point 동역학을 안정화하는 낙관적 프라이멀-듀얼(OPD) 알고리즘을 소개합니다. 제안된 방법에 대한 최종 반복 수렴 보장을 확립했으며, 이는 분포 공간에서의 정확한 정책 최적화와 매개변수화된 정책 하에서의 근사 오차 및 편향과 관련된 간극을 통해 최적 솔루션의 이웃으로의 수렴을 모두 포함합니다. 우리의 분석 결과, 낙관성은 제약 조건이 있는 정렬 목표에서 발생하는 진동을 완화하는 데 중요한 역할을 하며, 이는 제약 조건이 있는 강화 학습과 실제 RLHF 간의 중요한 이론적 격차를 해소합니다.
Reinforcement Learning from Human Feedback (RLHF) plays a significant role in aligning Large Language Models (LLMs) with human preferences. While RLHF with expected reward constraints can be formulated as a primal-dual optimization problem, standard primal-dual methods only guarantee convergence with a distributional policy where the saddle-point problem is in convex-concave form. Moreover, standard primal-dual methods may exhibit instability or divergence in the last iterate under policy parameterization in practical applications. In this work, we propose a universal primal-dual framework for safe RLHF that unifies a broad class of existing alignment algorithms, including safe-RLHF, one-shot, and multi-shot based methods. Building on this framework, we introduce an optimistic primal-dual (OPD) algorithm that incorporates predictive updates for both primal and dual variables to stabilize saddle-point dynamics. We establish last-iterate convergence guarantees for the proposed method, covering both exact policy optimization in the distributional space and convergence to a neighborhood of the optimal solution whose gap is related to approximation error and bias under parameterized policies. Our analysis reveals that optimism plays a crucial role in mitigating oscillations inherent to constrained alignment objectives, thereby closing a key theoretical gap between constrained RL and practical RLHF.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.