잡음에서 의도로: 잔차 브리지를 활용한 생성형 VLA 정책의 정립
From Noise to Intent: Anchoring Generative VLA Policies with Residual Bridges
인공지능 로봇의 핵심 과제인 고차원적 의미 이해와 저차원적 물리적 제어 간의 간극을 좁히는 것은 인지 능력과 행동 간의 근본적인 시공간적 규모 불일치에서 비롯됩니다. 기존의 생성형 VLA(Vision-Language-Action) 정책은 일반적으로 '잡음에서 생성'이라는 방식을 채택하는데, 이는 이러한 불일치를 간과하여 최적화 과정에서 표현 효율성 저하와 조건 정렬의 약화를 초래합니다. 본 연구에서는 '의도에서 정제'라는 새로운 패러다임을 제시하는 ResVLA 아키텍처를 제안합니다. 로봇의 움직임이 본질적으로 전역적 의도와 지역적 동역학으로 분해된다는 점을 인식하고, ResVLA는 스펙트럼 분석을 사용하여 제어를 결정론적인 저주파 앵커와 확률적인 고주파 잔차로 분리합니다. 제안하는 모델은 예측된 의도에 생성 과정을 앵커함으로써, 잔차 확산 브리지를 통해 지역적 동역학을 엄격하게 정제하는 데 집중합니다. 광범위한 시뮬레이션 실험 결과, ResVLA는 기존의 생성형 모델에 비해 경쟁력 있는 성능, 언어 및 로봇 구조 변화에 대한 강한 강건성, 그리고 빠른 수렴 속도를 보여주었습니다. 또한 실제 로봇 실험에서도 우수한 성능을 입증했습니다.
Bridging high-level semantic understanding with low-level physical control remains a persistent challenge in embodied intelligence, stemming from the fundamental spatiotemporal scale mismatch between cognition and action. Existing generative VLA policies typically adopt a "Generation-from-Noise" paradigm, which disregards this disparity, leading to representation inefficiency and weak condition alignment during optimization. In this work, we propose ResVLA, an architecture that shifts the paradigm to "Refinement-from-Intent." Recognizing that robotic motion naturally decomposes into global intent and local dynamics, ResVLA utilizes spectral analysis to decouple control into a deterministic low-frequency anchor and a stochastic high-frequency residual. By anchoring the generative process on the predicted intent, our model focuses strictly on refining local dynamics via a residual diffusion bridge. Extensive simulation experiments show that ResVLA achieves competitive performance, strong robustness to language and robot embodiment perturbations, and faster convergence than standard generative baselines. It also demonstrates strong performance in real-world robot experiments.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.