제어 극대화를 통한 목표 조건 강화 학습과 비지도 기술 학습의 통합
Unifying Goal-Conditioned RL and Unsupervised Skill Learning via Control-Maximization
비지도 사전 학습은 목표 조건 강화 학습(GCRL) 분야에서 상당한 발전을 이루었지만, 그 이론적 기반은 여전히 명확하게 이해되지 않고 있습니다. 특히, 중요한 방법론 중 하나인 상호 정보 기술 학습(MISL)은 다양한 행동 패턴을 갖는 기술을 발견하며, 이는 이후 목표 달성을 위해 활용될 수 있습니다. 그러나 MISL을 통해 학습된 기술이 목표 달성을 지원하는 이유에 대한 이론적 설명은 여전히 부족합니다. 중요한 점은 GCRL과 MISL 모두 포괄적인 용어라는 것입니다. GCRL의 다양한 작업은 목표 달성 성능을 측정하는 서로 다른 기준을 사용하며, MISL의 다양한 방법은 행동적 다양성의 서로 다른 개념을 최적화합니다. 우리는 이러한 문제를 해결하고 GCRL과 MISL을 제어 극대화의 일종으로 통합합니다. 우리는 세 가지 표준적인 GCRL 형식을 식별하고, 이들이 근본적으로 동등하지 않음을 증명합니다. 즉, 동일한 환경에서도 서로 호환되지 않는 최적 정책을 유도할 수 있습니다. 그러나, 이들은 공통적인 해석을 공유합니다. 즉, 우수한 목표 조건 정책은 명령된 목표에 대한 미래 경로가 매우 민감하며, 이러한 민감성의 정확한 정의는 GCRL 형식에 의해 결정됩니다. MISL의 목적 함수가 목표 민감성과 유사한 기술 민감성의 척도로 이해될 수 있다는 점에 주목하여, 우리는 MISL 목적 함수가 GCRL 형식에 따라 결정되는 특정 하위 목표 민감성 값으로 제한됨을 보여줍니다. 이러한 경계는 MISL 방법과 하위 목표 GCRL 작업 간의 정확한 대응 관계를 확립합니다. 즉, 모든 GCRL 형식에 대해, 더 다양한 기술을 통해 더 큰 하위 목표 민감성을 제공하는 해당 MISL 목적 함수가 존재합니다. 따라서, 우리의 연구 결과는 강화 학습 사전 학습에 대한 이론적 기반을 제공하며, 사용자가 특정 종류의 하위 작업에 관심이 있을 때 어떤 사전 학습 목적 함수를 사용해야 하는지에 대한 중요한 실질적인 함의를 갖습니다.
Unsupervised pretraining has driven empirical advances in goal-conditioned reinforcement learning (GCRL), but its theoretical foundations remain poorly understood. In particular, an influential class of methods, mutual information skill learning (MISL), discovers behaviorally diverse skills that can later be used for downstream goal-reaching. However, it remains a theoretical mystery why skills learned through MISL should support goal-reaching. A subtle challenge is that both GCRL and MISL are umbrella terms: different GCRL tasks use distinct criteria for measuring goal-reaching performance, while different MISL methods optimize distinct notions of behavioral diversity. We address this challenge and unify GCRL and MISL as instances of control maximization. We identify three canonical GCRL formulations and prove that they are fundamentally inequivalent: they can induce incompatible optimal policies even in the same environment. Nevertheless, they all share a common interpretation: a well-performing goal-conditioned policy is one whose future trajectory is highly sensitive to the commanded goal, with the precise notion of sensitivity determined by the GCRL formulation. Noting that MISL objectives can be understood as measures of skill-sensitivity akin to goal-sensitivity, we show that MISL objectives are bounded by formulation-specific downstream goal-sensitivities. These bounds establish a precise correspondence between MISL methods and downstream GCRL tasks: for every GCRL formulation, there exists a matching MISL objective for which more diverse skills afford greater downstream goal sensitivity. Our results thus lay a theoretical foundation for RL pretraining and have important practical implications, such as suggesting which pretraining objectives to use when a user cares about a specific class of downstream tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.