2602.02847v1 Feb 02, 2026 cs.LG

강건한 오프라인 강화 학습을 위한 인과적 흐름 기반 Q-러닝

Causal Flow Q-Learning for Robust Offline Reinforcement Learning

Mingxuan Li
Mingxuan Li
Citations: 20
h-index: 3
Junzhe Zhang
Junzhe Zhang
Syracuse University
Citations: 1,135
h-index: 14
E. Bareinboim
E. Bareinboim
Citations: 7,138
h-index: 45

복잡한 행동 분포를 오프라인 데이터로부터 모델링할 수 있는 능력 덕분에, 흐름 매칭 기반의 표현력 있는 정책들이 최근 강화 학습(RL) 분야에서 성공적으로 활용되고 있습니다. 이러한 알고리즘은 일반적으로 정책 경사를 기반으로 하며, 데이터 내에 측정되지 않은 교란 변수가 존재하지 않는다는 가정을 합니다. 그러나, 시각 기반 데모의 경우, 데모 제공자와 학습자 간의 감각 능력 불일치가 존재할 때, 이 가정이 반드시 만족되지 않을 수 있으며, 이는 오프라인 데이터 내에 잠재적인 교란 편향을 유발할 수 있습니다. 본 연구에서는 오프라인 RL에서 발생하는 교란된 관측 문제를 인과적 관점에서 분석하고, 교란 편향으로 인해 발생할 수 있는 정책의 최악의 성능을 최적화하는 새로운 인과적 오프라인 RL 목적 함수를 개발했습니다. 이 새로운 목적 함수를 기반으로, 우리는 교란된 데모로부터 표현력 있는 흐름 매칭 정책을 학습하는 실용적인 구현 방법을 제시합니다. 이 방법은 목표 정책과 정상적인 행동 정책 간의 불일치를 평가하기 위해 심층 판별기를 사용합니다. 25개의 시각 기반 작업에 대한 실험 결과, 제안하는 교란-강건 증강 절차가 교란을 고려하지 않는 최첨단 오프라인 RL 방법보다 120% 더 높은 성공률을 달성하는 것을 확인했습니다.

Original Abstract

Expressive policies based on flow-matching have been successfully applied in reinforcement learning (RL) more recently due to their ability to model complex action distributions from offline data. These algorithms build on standard policy gradients, which assume that there is no unmeasured confounding in the data. However, this condition does not necessarily hold for pixel-based demonstrations when a mismatch exists between the demonstrator's and the learner's sensory capabilities, leading to implicit confounding biases in offline data. We address the challenge by investigating the problem of confounded observations in offline RL from a causal perspective. We develop a novel causal offline RL objective that optimizes policies' worst-case performance that may arise due to confounding biases. Based on this new objective, we introduce a practical implementation that learns expressive flow-matching policies from confounded demonstrations, employing a deep discriminator to assess the discrepancy between the target policy and the nominal behavioral policy. Experiments across 25 pixel-based tasks demonstrate that our proposed confounding-robust augmentation procedure achieves a success rate 120\% that of confounding-unaware, state-of-the-art offline RL methods.

0 Citations
0 Influential
22.5 Altmetric
112.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!