2602.18724v1 Feb 21, 2026 cs.AI

예측적 비시뮬레이션 메트릭을 통한 태스크 인식 탐색

Task-Aware Exploration via a Predictive Bisimulation Metric

Bo An
Bo An
Citations: 5
h-index: 1
D. Liang
D. Liang
Citations: 48
h-index: 4
Ruihan Liu
Ruihan Liu
Citations: 1
h-index: 1
Lipeng Wan
Lipeng Wan
Citations: 138
h-index: 6
Yunlong Liu
Yunlong Liu
Citations: 68
h-index: 5

희소 보상 환경의 시각적 강화 학습에서 탐색을 가속화하는 것은 태스크와 무관한 상당한 변동성으로 인해 여전히 어려운 과제로 남아 있다. 내재적 탐색의 발전에도 불구하고, 많은 방법들은 저차원 상태에 대한 접근을 가정하거나 태스크 인식 탐색 전략이 부족하여 시각적 도메인에서 취약해지는 한계를 지닌다. 이러한 격차를 해소하기 위해, 우리는 예측적 비시뮬레이션 메트릭을 통해 태스크 관련 표현을 탐색과 긴밀하게 결합하는 태스크 인식 탐색 기법인 TEB를 제안한다. 구체적으로, TEB는 행동 기반의 태스크 표현을 학습할 뿐만 아니라, 학습된 잠재 공간에서 행동의 내재적 새로움을 측정하기 위해 이 메트릭을 활용한다. 이를 실현하기 위해, 우리는 간단하지만 효과적인 예측 보상 차분을 내부적으로 도입하여, 희소 보상 환경에서 퇴화된 비시뮬레이션 메트릭이 겪는 표현 붕괴 문제를 이론적으로 완화한다. 이렇게 구축된 견고한 메트릭을 바탕으로, 우리는 잠재 공간 상에서 인접한 관측치들 간의 상대적 새로움을 측정하는 포텐셜 기반의 탐색 보너스를 설계한다. MetaWorld와 Maze2D 환경에서 진행된 광범위한 실험 결과는 TEB가 우수한 탐색 능력을 달성하며 최신 베이스라인 방법론들을 능가함을 보여준다.

Original Abstract

Accelerating exploration in visual reinforcement learning under sparse rewards remains challenging due to the substantial task-irrelevant variations. Despite advances in intrinsic exploration, many methods either assume access to low-dimensional states or lack task-aware exploration strategies, thereby rendering them fragile in visual domains. To bridge this gap, we present TEB, a Task-aware Exploration approach that tightly couples task-relevant representations with exploration through a predictive Bisimulation metric. Specifically, TEB leverages the metric not only to learn behaviorally grounded task representations but also to measure behaviorally intrinsic novelty over the learned latent space. To realize this, we first theoretically mitigate the representation collapse of degenerate bisimulation metrics under sparse rewards by internally introducing a simple but effective predicted reward differential. Building on this robust metric, we design potential-based exploration bonuses, which measure the relative novelty of adjacent observations over the latent space. Extensive experiments on MetaWorld and Maze2D show that TEB achieves superior exploration ability and outperforms recent baselines.

0 Citations
0 Influential
3 Altmetric
15.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!