서포트 보존, 대응이 아님: 오프라인 강화 학습을 위한 동적 라우팅
Preserve Support, Not Correspondence: Dynamic Routing for Offline Reinforcement Learning
단일 단계 오프라인 강화 학습 에이전트는 긴 반복 샘플링을 거치지 않고 추론 비용을 낮출 수 있다는 장점이 있지만, 데이터셋이 지원하는 행동에서 벗어나지 않으면서도 가치 함수(critic)에 의해 개선되어야 합니다. 최근의 단일 단계 추출 파이프라인에서, 강력한 반복적인 교사 모델은 각 잠재 변수(latent variable)에 대해 하나의 목표 행동을 제공하며, 동일한 학생 모델은 높은 Q 값을 향하고, 동시에 해당 행동과 연결된 지점 근처에 머무르는 두 가지 역할을 수행해야 합니다. 이 두 방향이 일치하지 않는 경우, 손실 함수는 해당 샘플에 대한 타협점을 찾도록 문제를 해결하지만, 이로 인해 근처에 더 나은 행동이 존재하더라도 데이터셋에서 로컬적으로 지원되는 경우에도 문제가 발생할 수 있습니다. 본 논문에서는 DROL이라는 잠재 변수에 조건부로 작동하는 단일 단계 에이전트를 제안하며, 이는 상위 1개(top-1) 동적 라우팅을 사용하여 학습됩니다. 각 상태에 대해, 에이전트는 제한된 잠재 분포에서 K개의 후보 행동을 샘플링하고, 데이터셋의 각 행동을 가장 가까운 후보 행동에 할당하며, Behavior Cloning과 가치 함수 지침을 사용하여 해당 승자 행동만 업데이트합니다. 라우팅은 현재 후보 행동의 분포를 기반으로 재계산되므로, 학습 과정에서 지원되는 영역의 소유권이 후보 행동 간에 변경될 수 있습니다. 이는 단일 단계 에이전트가 pointwise 추출 방식으로는 포착하기 어려운 로컬 개선을 수행할 수 있도록 하며, 동시에 테스트 시에도 단일 단계 추론을 유지할 수 있도록 합니다. OGBench 및 D4RL 데이터셋에서 DROL은 단일 단계 FQL 기준 성능과 경쟁하며, 많은 OGBench 작업 그룹에서 성능을 향상시키고, AntMaze 및 Adroit 환경에서도 강력한 성능을 유지합니다. 프로젝트 페이지: https://muzhancun.github.io/preprints/DROL
One-step offline RL actors are attractive because they avoid backpropagating through long iterative samplers and keep inference cheap, but they still have to improve under a critic without drifting away from actions that the dataset can support. In recent one-step extraction pipelines, a strong iterative teacher provides one target action for each latent draw, and the same student output is asked to do both jobs: move toward higher Q and stay near that paired endpoint. If those two directions disagree, the loss resolves them as a compromise on that same sample, even when a nearby better action remains locally supported by the data. We propose DROL, a latent-conditioned one-step actor trained with top-1 dynamic routing. For each state, the actor samples $K$ candidate actions from a bounded latent prior, assigns each dataset action to its nearest candidate, and updates only that winner with Behavior Cloning and critic guidance. Because the routing is recomputed from the current candidate geometry, ownership of a supported region can shift across candidates over the course of learning. This gives a one-step actor room to make local improvements that pointwise extraction struggles to capture, while retaining single-pass inference at test time. On OGBench and D4RL, DROL is competitive with the one-step FQL baseline, improving many OGBench task groups while remaining strong on both AntMaze and Adroit. Project page: https://muzhancun.github.io/preprints/DROL.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.