제로샷 오프폴리시 학습
Zero-Shot Off-Policy Learning
오프폴리시 학습 방법은 기존의 상호작용 데이터 세트로부터 최적의 정책을 직접 도출하는 것을 목표로 합니다. 이 목표는 본질적인 분포 변화 및 가치 함수 과대 추정 편향으로 인해 상당한 어려움을 야기합니다. 이러한 문제는 특히 보상 없는 데이터로 학습된 에이전트가 추가적인 학습 없이 테스트 시점에 새로운 작업에 적응해야 하는 제로샷 강화 학습에서 더욱 두드러집니다. 본 연구에서는 정지 밀도 비율과의 이론적 연관성을 발견하여 제로샷 환경에서 오프폴리시 문제를 해결합니다. 이러한 통찰력을 바탕으로, 우리의 알고리즘은 최적의 중요 샘플링 비율을 추론하여, 어떤 작업에 대해서도 최적의 정책을 사용하여 실시간으로 정지 분포를 수정할 수 있습니다. 우리는 SMPL 휴머노이드 모델에서의 모션 트래킹 작업, ExoRL에서의 연속 제어 작업, 그리고 장기적인 OGBench 작업에서 우리의 방법을 평가했습니다. 우리의 기술은 포워드-백워드 표현 프레임워크에 원활하게 통합되며, 학습 없이 새로운 작업에 빠르게 적응할 수 있도록 합니다. 더 넓은 관점에서, 본 연구는 오프폴리시 학습과 제로샷 적응을 연결하여, 두 연구 분야 모두에 이점을 제공합니다.
Off-policy learning methods seek to derive an optimal policy directly from a fixed dataset of prior interactions. This objective presents significant challenges, primarily due to the inherent distributional shift and value function overestimation bias. These issues become even more noticeable in zero-shot reinforcement learning, where an agent trained on reward-free data must adapt to new tasks at test time without additional training. In this work, we address the off-policy problem in a zero-shot setting by discovering a theoretical connection of successor measures to stationary density ratios. Using this insight, our algorithm can infer optimal importance sampling ratios, effectively performing a stationary distribution correction with an optimal policy for any task on the fly. We benchmark our method in motion tracking tasks on SMPL Humanoid, continuous control on ExoRL, and for the long-horizon OGBench tasks. Our technique seamlessly integrates into forward-backward representation frameworks and enables fast-adaptation to new tasks in a training-free regime. More broadly, this work bridges off-policy learning and zero-shot adaptation, offering benefits to both research areas.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.