상태 기반 미러 디센트의 한계를 넘어: 파라미터화된 정책을 이용한 오프라인 정책 최적화
Beyond State-Wise Mirror Descent: Offline Policy Optimization with Parameteric Policies
본 연구에서는 일반적인 함수 근사 하에서의 오프라인 강화 학습(RL)에 대한 이론적 측면을 탐구합니다. 기존 연구(예: Xie et al., 2021)에서는 비관주의를 통해 오프라인 데이터로부터 좋은 정책을 학습하는 데 필요한 이론적 기반이 확립되었지만, 계산적으로 효율적인 알고리즘(예: PSPI)은 유한하고 작은 행동 공간에만 적용 가능합니다. 또한, 이러한 알고리즘은 상태 기반 미러 디센트에 의존하며, 비평가 함수로부터 액터가 암묵적으로 유도되어야 하므로, 실제에서 널리 사용되는 독립적인 정책 파라미터화를 수용하지 못합니다. 본 연구에서는 이러한 제한점을 해결하고, 큰 규모 또는 연속적인 행동 공간에 대한 파라미터화된 정책 클래스에 대한 이론적 보장을 확장합니다. 미러 디센트를 파라미터화된 정책으로 확장할 때, 우리는 맥락적 결합(contextual coupling)이 핵심적인 어려움임을 확인하고, 미러 디센트를 자연스러운 정책 그래디언트에 연결함으로써 새로운 분석, 보장 및 알고리즘적 통찰력을 얻을 수 있음을 보여줍니다. 이를 통해 오프라인 강화 학습과 모방 학습 간의 놀라운 통합을 달성합니다.
We investigate the theoretical aspects of offline reinforcement learning (RL) under general function approximation. While prior works (e.g., Xie et al., 2021) have established the theoretical foundations of learning a good policy from offline data via pessimism, existing algorithms that are computationally tractable (often in an oracle-efficient sense), such as PSPI, only apply to finite and small action spaces. Moreover, these algorithms rely on state-wise mirror descent and require actors to be implicitly induced from the critic functions, failing to accommodate standalone policy parameterization which is ubiquitous in practice. In this work, we address these limitations and extend the theoretical guarantees to parameterized policy classes over large or continuous action spaces. When extending mirror descent to parameterized policies, we identify contextual coupling as the core difficulty, and show how connecting mirror descent to natural policy gradient leads to novel analyses, guarantees, and algorithmic insights, including a surprising unification between offline RL and imitation learning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.