지역적 전이 기하학 재사용을 위한 행렬 공간 강화 학습
Matrix-Space Reinforcement Learning for Reusing Local Transition Geometry
순차적 의사 결정에서 일반화는 이전 시행 과정의 어떤 부분이 새로운 작업에 유용한지 파악하는 것을 요구합니다. 기존 방법은 주로 기술이나 예측 모델을 재사용하지만, 풍부한 지역적 전이 기하학 및 역학을 간과하는 경우가 많습니다. 본 연구에서는 행렬 공간 강화 학습(MSRL)을 제안합니다. MSRL은 기하학적 추상화 방법으로, 1차 및 2차 통계량을 집계하여 얻은 양의 준정부호 행렬 기술자를 사용하여 경로 단편을 표현합니다. 이러한 기술자는 공유된 숨겨진 구조를 드러내고, 추상적인 행렬 공간에서 대수적 조합을 지원하며, 전이 기회를 제시합니다. 우리는 제안하는 기술자가 좌표 게이지에 따라 잘 정의되어 있으며, 유도된 저차 가산 신호 클래스에 대해 완전하며, 유효한 단편 조합에 대해 가산적이고, 허용 가능한 가산 기술자 중에서 최소한으로 충분하다는 것을 증명합니다. 또한, 경로 단편 행렬에 기반하여 가치 함수를 정의하면, 액션 값의 1차 미분 가능한 근사값을 얻을 수 있으며, 이를 통해 소스에서 학습된 행렬-가치 매핑을 사용하여 새로운 작업에서 학습을 초기화할 수 있습니다. MSRL은 표준 모델 기반 및 모델 프리 방법과 호환되며, 동시에 불가능한 조합을 필터링합니다. 실험적으로 MSRL은 0.73의 최고 평균 유한 예산 목표 AUC를 달성했으며, 이는 처음부터 MSRL(0.65), TD-MPC-PT+FT(0.63) 및 TD-MPC(0.57)보다 우수한 성능입니다.
Compositional generalization in sequential decision-making requires identifying which parts of prior rollouts remain useful for new tasks. Existing methods reuse skills or predictive models, but often overlook rich local transition geometry and dynamics. We propose Matrix-Space Reinforcement Learning (MSRL), a geometric abstraction that represents trajectory segments through positive semidefinite matrix descriptors aggregating first- and second-order statistics of lifted one-step transitions. These descriptors expose shared hidden structure, support algebraic composition in an abstract matrix space, and reveal opportunities for transfer. We prove that the descriptor is well defined up to coordinate gauge, complete for the induced low-order additive signal class, additive under valid segment composition, and minimally sufficient among admissible additive descriptors. We further show that conditioning value functions on the trajectory-segment matrix yields a first-order smooth approximation of action values, enabling source-learned matrix-to-value mappings to bootstrap learning in new tasks. MSRL is plug-in compatible with standard model-free and model-based methods, while obstruction filtering rejects implausible compositions. Empirically, MSRL achieves the best average finite-budget target AUC of 0.73, outperforming MSRL from scratch (0.65), TD-MPC-PT+FT (0.63), and TD-MPC (0.57).
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.