AugVLA-3D: 깊이 기반 특징 증강을 통한 시각-언어-행동 모델
AugVLA-3D: Depth-Driven Feature Augmentation for Vision-Language-Action Models
최근 시각-언어-행동(VLA) 모델은 로봇 인식 및 제어 분야에서 괄목할 만한 발전을 이루었지만, 대부분의 기존 방법은 2D 이미지로 학습된 VLM에 의존하여 복잡한 3D 환경에서의 공간적 이해와 행동 기반을 제한합니다. 이러한 한계를 극복하기 위해, 본 연구에서는 VLA 모델에 깊이 추정 기능을 통합하여 3D 특징 표현을 풍부하게 하는 새로운 프레임워크를 제안합니다. 구체적으로, 표준 RGB 입력으로부터 기하학적 정보를 추출하기 위해 VGGT라는 깊이 추정 방법을 사용하며, 이를 통해 기존의 대규모 2D 데이터 세트를 효율적으로 활용하면서 3D 구조 정보를 암묵적으로 복원할 수 있습니다. 또한, 이러한 깊이 기반 특징의 신뢰성을 더욱 향상시키기 위해, 학습된 3D 표현을 행동 사전 지식으로 제약하고, 하위 제어 작업과의 일관성을 보장하는 새로운 모듈인 '액션 어시스턴트'를 도입했습니다. 강화된 3D 특징과 기존의 2D 시각적 토큰을 결합함으로써, 본 연구는 VLA 모델의 일반화 능력과 견고성을 크게 향상시킵니다. 실험 결과는 제안된 방법이 기하학적으로 모호한 시나리오에서 인식 능력을 강화할 뿐만 아니라, 우수한 행동 예측 정확도를 달성한다는 것을 보여줍니다. 본 연구는 로봇 시스템에서 2D 관찰과 3D 인식 기반 의사 결정 간의 격차를 해소하는 데 있어 깊이 기반 데이터 증강 및 보조 전문가 감독의 잠재력을 강조합니다.
Vision-Language-Action (VLA) models have recently achieved remarkable progress in robotic perception and control, yet most existing approaches primarily rely on VLM trained using 2D images, which limits their spatial understanding and action grounding in complex 3D environments. To address this limitation, we propose a novel framework that integrates depth estimation into VLA models to enrich 3D feature representations. Specifically, we employ a depth estimation baseline called VGGT to extract geometry-aware 3D cues from standard RGB inputs, enabling efficient utilization of existing large-scale 2D datasets while implicitly recovering 3D structural information. To further enhance the reliability of these depth-derived features, we introduce a new module called action assistant, which constrains the learned 3D representations with action priors and ensures their consistency with downstream control tasks. By fusing the enhanced 3D features with conventional 2D visual tokens, our approach significantly improves the generalization ability and robustness of VLA models. Experimental results demonstrate that the proposed method not only strengthens perception in geometrically ambiguous scenarios but also leads to superior action prediction accuracy. This work highlights the potential of depth-driven data augmentation and auxiliary expert supervision for bridging the gap between 2D observations and 3D-aware decision-making in robotic systems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.