2601.14234v2 Jan 20, 2026 cs.LG

어조합 Q-러닝 (Q-learning with Adjoint Matching)

Q-learning with Adjoint Matching

Qiyang Li
Qiyang Li
Citations: 1,929
h-index: 15
Sergey Levine
Sergey Levine
Citations: 524
h-index: 7

본 논문에서는 어조합 Q-러닝 (QAM)이라는 새로운 TD 기반 강화 학습 (RL) 알고리즘을 제안합니다. QAM은 연속적인 행동 공간을 갖는 강화 학습에서 오랫동안 해결해야 할 과제인, 표현력이 뛰어난 확산 또는 흐름 기반 정책을 파라미터화된 Q 함수에 대해 효율적으로 최적화하는 문제를 다룹니다. 효과적인 최적화를 위해서는 비평기의 (critic) 일차 정보(first-order information)를 활용해야 하지만, 흐름 또는 확산 기반 정책의 경우, 다단계 노이즈 제거 과정을 통한 직접적인 역전파 기반 최적화는 수치적으로 불안정합니다. 기존 방법들은 이러한 문제를 해결하기 위해 값(value) 정보만 사용하고 기울기(gradient) 정보를 버리거나, 정책의 표현력을 희생하거나 학습된 정책에 편향을 주는 근사 방법을 사용합니다. QAM은 최근 제안된 생성 모델링 기술인 어조합(adjoint matching)을 활용하여 이러한 두 가지 문제점을 모두 해결합니다. 어조합은 비평기의 행동 기울기를 변환하여 불안정한 역전파 없이 작동하는 단계별 목적 함수를 형성하며, 동시에 최적점에서 편향되지 않고 표현력이 뛰어난 정책을 제공합니다. 시간 차이 백업(temporal-difference backup)을 이용한 비평기 학습과 결합된 QAM은 오프라인 및 오프라인-온라인 강화 학습 환경 모두에서 어려운, 희소 보상(sparse reward) 작업을 수행할 때 기존 방법보다 일관되게 더 우수한 성능을 보입니다.

Original Abstract

We propose Q-learning with Adjoint Matching (QAM), a novel TD-based reinforcement learning (RL) algorithm that tackles a long-standing challenge in continuous-action RL: efficient optimization of an expressive diffusion or flow-matching policy with respect to a parameterized Q-function. Effective optimization requires exploiting the first-order information of the critic, but it is challenging to do so for flow or diffusion policies because direct gradient-based optimization via backpropagation through their multi-step denoising process is numerically unstable. Existing methods work around this either by only using the value and discarding the gradient information, or by relying on approximations that sacrifice policy expressivity or bias the learned policy. QAM sidesteps both of these challenges by leveraging adjoint matching, a recently proposed technique in generative modeling, which transforms the critic's action gradient to form a step-wise objective function that is free from unstable backpropagation, while providing an unbiased, expressive policy at the optimum. Combined with temporal-difference backup for critic learning, QAM consistently outperforms prior approaches on hard, sparse reward tasks in both offline and offline-to-online RL.

17 Citations
7 Influential
7.5 Altmetric
68.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!