2605.14712v1 May 14, 2026 cs.RO

IntentVLA: 짧은 시간 지평의 의도 모델링을 통한 로봇 조작의 별칭 문제 해결

IntentVLA: Short-Horizon Intent Modeling for Aliased Robot Manipulation

Bin Yu
Bin Yu
Citations: 95
h-index: 6
Xiaopeng Lin
Xiaopeng Lin
Citations: 33
h-index: 4
L. T. Yang
L. T. Yang
Citations: 80
h-index: 3
Zhaolong Shen
Zhaolong Shen
Citations: 27
h-index: 3
Changti Wu
Changti Wu
Citations: 66
h-index: 6
Cong Huang
Cong Huang
Citations: 36
h-index: 4
Hang Yuan
Hang Yuan
Citations: 63
h-index: 4
Yurun Jin
Yurun Jin
Citations: 8
h-index: 2
Kai Chen
Kai Chen
Citations: 16
h-index: 3
Haishan Liu
Haishan Liu
Citations: 89
h-index: 4
Shijie Lian
Shijie Lian
Huazhong University of Science and Technology, Beijing Zhongguancun Academy, DeepCybo, Hainan University
Citations: 208
h-index: 7

로봇 모방 데이터는 종종 다중 모달성을 가집니다. 유사한 시각-언어 관찰 결과는 인간 시연자가 다른 단기 의도, 작업 단계 또는 최근 상황에 따라 서로 다른 동작으로 이어질 수 있습니다. 기존 프레임 기반 VLA(Vision-Language-Action) 정책은 각 동작을 현재 관찰 및 지시에만 기반하여 추론하므로, 부분적인 관찰 환경에서는 인접한 재계획 단계에서 서로 다른 의도가 샘플링되어, 동작 간 충돌과 불안정한 실행을 초래할 수 있습니다. 본 논문에서는 최근 시각 관찰 내용을 압축된 단기 의도 표현으로 인코딩하고, 이를 기반으로 동작 생성에 조건을 부여하는, 히스토리 기반 VLA 프레임워크인 IntentVLA를 제안합니다. 또한, 짧은 시간 지평의 관찰 동음이의성을 분리하기 위해, 일치된 학습 데이터와 평가 환경을 갖춘 12개의 작업으로 구성된 벤치마크인 AliasBench를 소개합니다. AliasBench, SimplerEnv, LIBERO, 그리고 RoboCasa 환경에서, IntentVLA는 실행 안정성을 향상시키고, 강력한 VLA 기반 모델보다 우수한 성능을 보였습니다.

Original Abstract

Robot imitation data are often multimodal: similar visual-language observations may be followed by different action chunks because human demonstrators act with different short-horizon intents, task phases, or recent context. Existing frame-conditioned VLA policies infer each chunk from the current observation and instruction alone, so under partial observability they may resample different intents across adjacent replanning steps, leading to inter-chunk conflict and unstable execution. We introduce IntentVLA, a history-conditioned VLA framework that encodes recent visual observations into a compact short-horizon intent representation and uses it to condition chunk generation. We further introduce AliasBench, a 12-task ambiguity-aware benchmark on RoboTwin2 with matched training data and evaluation environments that isolate short-horizon observation aliasing. Across AliasBench, SimplerEnv, LIBERO, and RoboCasa, IntentVLA improves rollout stability and outperforms strong VLA baselines

0 Citations
0 Influential
3.5 Altmetric
17.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!