2604.08958v1 Apr 10, 2026 cs.LG

WOMBET: 월드 모델 기반 경험 전이 - 견고하고 샘플 효율적인 강화 학습을 위한 방법

WOMBET: World Model-based Experience Transfer for Robust and Sample-efficient Reinforcement Learning

K. Sreenath
K. Sreenath
Citations: 12,963
h-index: 54
Mintae Kim
Mintae Kim
Citations: 13
h-index: 3

로봇 공학에서의 강화 학습(RL)은 종종 데이터 수집 비용과 위험으로 인해 제한됩니다. 따라서, 소스 작업에서 대상 작업으로의 경험 전이가 필요합니다. 기존의 오프라인-온라인 RL 방법은 기존 데이터를 활용하지만, 일반적으로 고정된 데이터 세트를 가정하며 데이터 전이를 위한 신뢰할 수 있는 데이터 생성 방법에 대한 문제는 다루지 않습니다. 본 논문에서는 사전 데이터를 동시에 생성하고 활용하는 프레임워크인 extit{월드 모델 기반 경험 전이}(WOMBET)를 제안합니다. WOMBET은 소스 작업에서 월드 모델을 학습하고, 불확실성을 고려한 계획을 통해 오프라인 데이터를 생성합니다. 이후, 높은 보상과 낮은 인지적 불확실성을 가진 궤적을 필터링합니다. 그런 다음, WOMBET은 오프라인 데이터와 온라인 데이터 간의 적응적 샘플링을 사용하여 대상 작업에서 온라인 미세 조정을 수행하여, 사전 데이터 기반 초기화에서 작업별 적응으로의 안정적인 전환을 가능하게 합니다. 불확실성을 고려한 목적 함수가 실제 보상의 하한을 제공하며, 분포 불일치 및 근사 오류를 설명하는 유한 샘플 오류 분해를 도출합니다. 실험적으로, WOMBET은 연속 제어 벤치마크에서 강력한 기준 모델보다 샘플 효율성과 최종 성능이 향상되었으며, 데이터 생성 및 전이를 동시에 최적화하는 것의 이점을 보여줍니다.

Original Abstract

Reinforcement learning (RL) in robotics is often limited by the cost and risk of data collection, motivating experience transfer from a source task to a target task. Offline-to-online RL leverages prior data but typically assumes a given fixed dataset and does not address how to generate reliable data for transfer. We propose \textit{World Model-based Experience Transfer} (WOMBET), a framework that jointly generates and utilizes prior data. WOMBET learns a world model in the source task and generates offline data via uncertainty-penalized planning, followed by filtering trajectories with high return and low epistemic uncertainty. It then performs online fine-tuning in the target task using adaptive sampling between offline and online data, enabling a stable transition from prior-driven initialization to task-specific adaptation. We show that the uncertainty-penalized objective provides a lower bound on the true return and derive a finite-sample error decomposition capturing distribution mismatch and approximation error. Empirically, WOMBET improves sample efficiency and final performance over strong baselines on continuous control benchmarks, demonstrating the benefit of jointly optimizing data generation and transfer.

0 Citations
0 Influential
27 Altmetric
135.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!