2601.19452v1 Jan 27, 2026 cs.LG

APC-RL: 적응적 정책 조합을 통한 데이터 기반 행동 사전 지식 활용 극대화

APC-RL: Exceeding Data-Driven Behavior Priors with Adaptive Policy Composition

Finn Rietz
Finn Rietz
Citations: 65
h-index: 3
J. A. Stork
J. A. Stork
Citations: 1,797
h-index: 23
Pedro Zuidberg Dos Martires
Pedro Zuidberg Dos Martires
Citations: 383
h-index: 12

강화 학습(RL)에 시연 데이터를 통합하면 학습 속도를 크게 향상시킬 수 있지만, 기존 방법은 종종 시연 데이터가 최적이며 목표 작업과 완전히 일치한다고 가정합니다. 그러나 실제로는 시연 데이터가 종종 부족하거나, 최적이 아니거나, 목표 작업과 일치하지 않는 경우가 많으며, 이러한 시연 데이터를 RL에 통합하면 성능이 저하될 수 있습니다. 본 논문에서는 Adaptive Policy Composition (APC)이라는 계층적 모델을 제안합니다. APC는 여러 개의 데이터 기반 정규화 흐름(NF) 사전 지식을 적응적으로 조합합니다. APC는 사전 지식에 엄격하게 따르는 대신, 각 사전 지식의 목표 작업에 대한 적용 가능성을 추정하고, 이를 탐색에 활용합니다. 또한, APC는 유용한 사전 지식을 개선하거나, 필요한 경우 일치하지 않는 사전 지식을 무시하여 다운스트림 보상을 최적화합니다. 다양한 벤치마크에서 APC는 시연 데이터가 일치하는 경우 학습 속도를 가속화하고, 심각한 불일치 상황에서도 안정적인 성능을 유지하며, 최적화되지 않은 시연 데이터를 활용하여 탐색을 시작하고, 최적화되지 않은 시연 데이터에 과도하게 의존하여 발생하는 성능 저하를 방지합니다.

Original Abstract

Incorporating demonstration data into reinforcement learning (RL) can greatly accelerate learning, but existing approaches often assume demonstrations are optimal and fully aligned with the target task. In practice, demonstrations are frequently sparse, suboptimal, or misaligned, which can degrade performance when these demonstrations are integrated into RL. We propose Adaptive Policy Composition (APC), a hierarchical model that adaptively composes multiple data-driven Normalizing Flow (NF) priors. Instead of enforcing strict adherence to the priors, APC estimates each prior's applicability to the target task while leveraging them for exploration. Moreover, APC either refines useful priors, or sidesteps misaligned ones when necessary to optimize downstream reward. Across diverse benchmarks, APC accelerates learning when demonstrations are aligned, remains robust under severe misalignment, and leverages suboptimal demonstrations to bootstrap exploration while avoiding performance degradation caused by overly strict adherence to suboptimal demonstrations.

0 Citations
0 Influential
11.5 Altmetric
57.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!