2602.21633v1 Feb 25, 2026 cs.RO

자가 수정 VLA: 희소한 세계 상상력을 통한 온라인 행동 개선

Self-Correcting VLA: Online Action Refinement via Sparse World Imagination

Wentao Tan
Wentao Tan
Citations: 174
h-index: 5
Fengling Li
Fengling Li
Citations: 427
h-index: 12
Jingjing Li
Jingjing Li
Citations: 13
h-index: 1
Chen-Yu Liu
Chen-Yu Liu
Citations: 17
h-index: 3
Lei Zhu
Lei Zhu
Citations: 175
h-index: 7
H. Shen
H. Shen
Citations: 50
h-index: 4
Guoli Yang
Guoli Yang
Citations: 9
h-index: 2

기존의 비전-언어-행동(VLA) 모델은 통계적 데이터 사전 지식에 의존하여, 이는 하위 물리적 역학에 대한 견고한 이해를 제한합니다. 강화 학습은 탐색을 통해 물리적 기반을 강화하지만, 일반적으로 에이전트의 내부 상태와 분리된 외부 보상 신호에 의존합니다. 세계 행동 모델은 상상력과 제어를 통합하여 예측적 계획을 가능하게 하는 유망한 패러다임으로 부상했습니다. 그러나 이들은 명시적인 자기 개선 메커니즘이 부족한, 암시적 컨텍스트 모델링에 의존합니다. 이러한 문제를 해결하기 위해, 우리는 자가 수정 VLA(SC-VLA)를 제안합니다. SC-VLA는 희소한 상상력을 통해 내부적으로 행동 개선을 유도하여 자기 개선을 달성합니다. 먼저, 보조 예측 헤드를 통합하여 현재 작업 진행 상황과 미래 궤적 추세를 예측함으로써 정책이 단기적인 물리적 변화를 인코딩하도록 제한하는 희소한 세계 상상력을 설계합니다. 그런 다음, 진행 상황에 따라 밀집된 보상을 재구성하는 온라인 행동 개선 모듈을 도입하여 예측된 희소한 미래 상태를 기반으로 궤적 방향을 조정합니다. 시뮬레이션 벤치마크 및 실제 환경에서 수행된 어려운 로봇 조작 작업에 대한 평가 결과, SC-VLA는 최첨단 성능을 달성했으며, 가장 우수한 성능을 보이는 기존 모델보다 16% 적은 단계로 더 높은 작업 처리량(16%)을 보였고 성공률이 9% 더 높았습니다. 또한 실제 실험에서 14%의 성능 향상을 보였습니다. 코드: https://github.com/Kisaragi0/SC-VLA.

Original Abstract

Standard vision-language-action (VLA) models rely on fitting statistical data priors, limiting their robust understanding of underlying physical dynamics. Reinforcement learning enhances physical grounding through exploration yet typically relies on external reward signals that remain isolated from the agent's internal states. World action models have emerged as a promising paradigm that integrates imagination and control to enable predictive planning. However, they rely on implicit context modeling, lacking explicit mechanisms for self-improvement. To solve these problems, we propose Self-Correcting VLA (SC-VLA), which achieve self-improvement by intrinsically guiding action refinement through sparse imagination. We first design sparse world imagination by integrating auxiliary predictive heads to forecast current task progress and future trajectory trends, thereby constraining the policy to encode short-term physical evolution. Then we introduce the online action refinement module to reshape progress-dependent dense rewards, adjusting trajectory orientation based on the predicted sparse future states. Evaluations on challenging robot manipulation tasks from simulation benchmarks and real-world settings demonstrate that SC-VLA achieve state-of-the-art performance, yielding the highest task throughput with 16% fewer steps and a 9% higher success rate than the best-performing baselines, alongside a 14% gain in real-world experiments. Code is available at https://github.com/Kisaragi0/SC-VLA.

0 Citations
0 Influential
37.51292546497 Altmetric
187.6 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!