2601.22350v1 Jan 29, 2026 cs.LG

제어 가능한 행동 생성화를 위한 정책 표현 학습

Learning Policy Representations for Steerable Behavior Synthesis

Bei Li
Bei Li
Citations: 107
h-index: 5
Sergio Rozada
Sergio Rozada
Citations: 59
h-index: 4
Alejandro Ribeiro
Alejandro Ribeiro
Citations: 40
h-index: 3

주어진 마르코프 결정 과정(MDP)에서, 우리는 테스트 시점에 행동을 제어할 수 있도록 다양한 정책에 대한 표현을 학습하는 것을 목표로 합니다. MDP의 정책은 고유하게 점유율 측정(occupancy measure)에 의해 결정되므로, 우리는 정책 표현을 점유율 측정에 대한 상태-행동 특징 매핑의 기댓값으로 모델링하는 것을 제안합니다. 우리는 이러한 표현이 집합 기반 아키텍처를 사용하여 다양한 정책에 대해 균일하게 근사될 수 있음을 보여줍니다. 우리의 모델은 상태-행동 샘플 집합을 잠재 임베딩으로 인코딩하고, 이를 통해 여러 보상에 해당하는 정책 및 값 함수를 모두 디코딩합니다. 우리는 변분 생성 방식을 사용하여 매끄러운 잠재 공간을 유도하고, 추가적으로 대비 학습을 통해 잠재 공간의 거리가 값 함수의 차이와 일치하도록 조정합니다. 이러한 기하학적 구조는 잠재 공간에서 직접적인 경사 기반 최적화를 가능하게 합니다. 이러한 기능을 활용하여, 우리는 새로운 행동 생성 작업을 해결합니다. 이 작업에서 정책은 추가적인 학습 없이, 이전에 관찰되지 않은 값 함수 제약 조건을 만족하도록 조정됩니다.

Original Abstract

Given a Markov decision process (MDP), we seek to learn representations for a range of policies to facilitate behavior steering at test time. As policies of an MDP are uniquely determined by their occupancy measures, we propose modeling policy representations as expectations of state-action feature maps with respect to occupancy measures. We show that these representations can be approximated uniformly for a range of policies using a set-based architecture. Our model encodes a set of state-action samples into a latent embedding, from which we decode both the policy and its value functions corresponding to multiple rewards. We use variational generative approach to induce a smooth latent space, and further shape it with contrastive learning so that latent distances align with differences in value functions. This geometry permits gradient-based optimization directly in the latent space. Leveraging this capability, we solve a novel behavior synthesis task, where policies are steered to satisfy previously unseen value function constraints without additional training.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!