2602.20057v1 Feb 23, 2026 cs.RO

AdaWorldPolicy: 로봇 조작을 위한 온라인 적응형 학습을 갖춘 세계 모델 기반 디퓨전 정책

AdaWorldPolicy: World-Model-Driven Diffusion Policy with Online Adaptive Learning for Robotic Manipulation

Genlan Yuan
Genlan Yuan
Citations: 154
h-index: 5
Qiyuan Qiao
Qiyuan Qiao
Citations: 6
h-index: 1
Jing Zhang
Jing Zhang
Citations: 5
h-index: 1
Dong Xu
Dong Xu
Citations: 385
h-index: 9

효과적인 로봇 조작을 위해서는 물리적 결과를 예측하고 실제 환경에 적응할 수 있는 정책이 필요하다. 효과적인 로봇 조작을 위해서는 물리적 결과를 예측하고 실제 환경에 적응할 수 있는 정책이 필요하다. 본 연구에서는 최소한의 인간 개입으로 동적 조건에서 로봇 조작 능력을 향상시키기 위해 통합 프레임워크인 온라인 적응형 학습을 갖춘 세계 모델 기반 디퓨전 정책(AdaWorldPolicy)을 소개한다. 우리의 핵심 통찰은 세계 모델이 강력한 지도 신호를 제공하여 동적 환경에서의 온라인 적응형 학습을 가능하게 하며, 이는 동적 힘의 변화를 완화하기 위한 힘-토크 피드백에 의해 보완될 수 있다는 것이다. 우리의 AdaWorldPolicy는 세계 모델, 행동 전문가, 그리고 힘 예측기를 통합하며, 이들 모두는 상호 연결된 플로우 매칭 디퓨전 트랜스포머(DiT)로 구현된다. 이들은 다중 모달 셀프 어텐션 계층을 통해 상호 연결되어, 고유한 모듈성 특성을 유지하면서 공동 학습을 위한 깊은 특징 교환을 가능하게 한다. 또한, 우리는 세 가지 모듈 모두에서 반응형 업데이트를 유도하기 위해 행동 생성 모드와 미래 상상 모드 사이를 동적으로 전환하는 새로운 온라인 적응형 학습(AdaOL) 전략을 제안한다. 이는 최소한의 오버헤드로 시각적 및 물리적 도메인 변화 모두에 적응하는 강력한 폐루프 메커니즘을 생성한다. 일련의 시뮬레이션 및 실제 로봇 벤치마크 전반에 걸쳐, 우리의 AdaWorldPolicy는 분포 외(OOD) 시나리오에 대한 동적 적응 능력을 보여주며 최고 수준의(state-of-the-art) 성능을 달성한다.

Original Abstract

Effective robotic manipulation requires policies that can anticipate physical outcomes and adapt to real-world environments. Effective robotic manipulation requires policies that can anticipate physical outcomes and adapt to real-world environments. In this work, we introduce a unified framework, World-Model-Driven Diffusion Policy with Online Adaptive Learning (AdaWorldPolicy) to enhance robotic manipulation under dynamic conditions with minimal human involvement. Our core insight is that world models provide strong supervision signals, enabling online adaptive learning in dynamic environments, which can be complemented by force-torque feedback to mitigate dynamic force shifts. Our AdaWorldPolicy integrates a world model, an action expert, and a force predictor-all implemented as interconnected Flow Matching Diffusion Transformers (DiT). They are interconnected via the multi-modal self-attention layers, enabling deep feature exchange for joint learning while preserving their distinct modularity characteristics. We further propose a novel Online Adaptive Learning (AdaOL) strategy that dynamically switches between an Action Generation mode and a Future Imagination mode to drive reactive updates across all three modules. This creates a powerful closed-loop mechanism that adapts to both visual and physical domain shifts with minimal overhead. Across a suite of simulated and real-robot benchmarks, our AdaWorldPolicy achieves state-of-the-art performance, with dynamical adaptive capacity to out-of-distribution scenarios.

1 Citations
0 Influential
4.5 Altmetric
23.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!