마르코프 결정 과정에서 기하학적 일관성을 통한 가치 표현 구조화
Structuring Value Representations via Geometric Coherence in Markov Decision Processes
기하학적 속성은 강화 학습을 안정화하고 가속화하는 데 활용될 수 있다. 기존의 예로는 대칭 구조 인코딩, 기하학적 정보를 고려한 데이터 증강, 구조적 제약 강제 등이 있다. 본 논문에서는 순서론(order theory)의 관점을 통해 강화 학습을 새롭게 조명하고, 가치 함수 추정 문제를 원하는 부분 순서 집합(poset)을 학습하는 문제로 재구성한다. 우리는 이전 단계의 부분 순서 집합을 세분화하고 시간차(TD) 신호로부터 추가적인 순서 관계를 학습함으로써 일련의 초-부분 순서 집합(super-poset) 세분화 과정을 계산하는 GCR-RL(Geometric Coherence Regularized Reinforcement Learning)을 제안한다. 이는 학습된 가치 함수의 기초가 되는 부분 순서 집합 시퀀스 전반에 걸쳐 기하학적 일관성을 보장한다. 이러한 초-부분 순서 집합 세분화를 효율적으로 구현하기 위해 Q-러닝과 액터-크리틱(actor-critic)을 기반으로 한 두 가지 새로운 알고리즘이 개발되었다. 또한 이들의 이론적 특성과 수렴 속도를 분석한다. 우리는 다양한 작업에서 GCR-RL을 실증적으로 평가하였으며, 강력한 베이스라인과 비교하여 샘플 효율성 및 성능 안정성 면에서 상당한 개선이 있음을 입증한다.
Geometric properties can be leveraged to stabilize and speed reinforcement learning. Existing examples include encoding symmetry structure, geometry-aware data augmentation, and enforcing structural restrictions. In this paper, we take a novel view of RL through the lens of order theory and recast value function estimates into learning a desired poset (partially ordered set). We propose \emph{GCR-RL} (Geometric Coherence Regularized Reinforcement Learning) that computes a sequence of super-poset refinements -- by refining posets in previous steps and learning additional order relationships from temporal difference signals -- thus ensuring geometric coherence across the sequence of posets underpinning the learned value functions. Two novel algorithms by Q-learning and by actor--critic are developed to efficiently realize these super-poset refinements. Their theoretical properties and convergence rates are analyzed. We empirically evaluate GCR-RL in a range of tasks and demonstrate significant improvements in sample efficiency and stable performance over strong baselines.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.