시각적 비지도 강화 학습을 위한 중요도 기반 표현 학습 및 일관성 정책 학습
Saliency-Guided Representation with Consistency Policy Learning for Visual Unsupervised Reinforcement Learning
제로샷 비지도 강화 학습(URL)은 추가적인 감독 없이도 다양한 작업에 일반화할 수 있는 범용 에이전트를 구축하는 유망한 방법입니다. 기존 접근 방식 중, 서세서 표현(SR)은 구조화되고 저차원적인 환경에서 효과적이기 때문에 두드러진 패러다임으로 자리 잡았습니다. 그러나 SR 방법은 고차원 시각 환경으로 확장하는 데 어려움을 겪습니다. 경험적 분석을 통해, 시각적 URL에서 SR의 두 가지 주요 한계를 확인했습니다. (1) SR 목표는 종종 최적이 아닌 표현을 생성하여 작업의 일반화 성능을 저하시키는, 역학적 요인과 관련 없는 영역에 집중합니다. (2) 이러한 결함 있는 표현은 SR 정책이 다양한 스킬에 따른 행동 분포를 모델링하고 스킬 제어를 보장하는 것을 방해합니다. 이러한 한계를 해결하기 위해, 우리는 제로샷 일반화 성능을 향상시키는 새로운 프레임워크인 중요도 기반 표현 학습 및 일관성 정책 학습(SRCP)을 제안합니다. SRCP는 역학적 요인과 관련된 표현을 캡처하기 위해 중요도 기반 역학 학습 작업을 도입하여 표현 학습과 서세서 학습을 분리함으로써 서세서 측정 및 작업 일반화 성능을 향상시킵니다. 또한, SRCP는 URL에 특화된 분류기-프리 가이던스와 맞춤형 학습 목표를 통합한 빠른 샘플링 일관성 정책을 사용하여 스킬에 따른 정책 모델링 및 제어 성능을 향상시킵니다. ExORL 벤치마크의 4개 데이터셋에 걸쳐 16개의 작업에 대한 광범위한 실험 결과, SRCP는 시각적 URL에서 최첨단 제로샷 일반화 성능을 달성하며 다양한 SR 방법과 호환됨을 보여줍니다.
Zero-shot unsupervised reinforcement learning (URL) offers a promising direction for building generalist agents capable of generalizing to unseen tasks without additional supervision. Among existing approaches, successor representations (SR) have emerged as a prominent paradigm due to their effectiveness in structured, low-dimensional settings. However, SR methods struggle to scale to high-dimensional visual environments. Through empirical analysis, we identify two key limitations of SR in visual URL: (1) SR objectives often lead to suboptimal representations that attend to dynamics-irrelevant regions, resulting in inaccurate successor measures and degraded task generalization; and (2) these flawed representations hinder SR policies from modeling multi-modal skill-conditioned action distributions and ensuring skill controllability. To address these limitations, we propose Saliency-Guided Representation with Consistency Policy Learning (SRCP), a novel framework that improves zero-shot generalization of SR methods in visual URL. SRCP decouples representation learning from successor training by introducing a saliency-guided dynamics task to capture dynamics-relevant representations, thereby improving successor measure and task generalization. Moreover, it integrates a fast-sampling consistency policy with URL-specific classifier-free guidance and tailored training objectives to improve skill-conditioned policy modeling and controllability. Extensive experiments on 16 tasks across 4 datasets from the ExORL benchmark demonstrate that SRCP achieves state-of-the-art zero-shot generalization in visual URL and is compatible with various SR methods.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.