2603.17524v1 Mar 18, 2026 cs.RO

KineVLA: 이중 레벨 액션 분해를 활용한 운동학적 특징을 고려한 시각-언어-행동 모델 연구

KineVLA: Towards Kinematics-Aware Vision-Language-Action Models with Bi-Level Action Decomposition

Zhuoran Li
Zhuoran Li
Citations: 0
h-index: 0
Zhengqing Gao
Zhengqing Gao
Citations: 20
h-index: 2
Ziwen Li
Ziwen Li
Citations: 28
h-index: 3
Jiaxin Huang
Jiaxin Huang
Citations: 27
h-index: 3
Gaoge Han
Gaoge Han
Citations: 49
h-index: 4
Shaoli Huang
Shaoli Huang
Citations: 85
h-index: 6
Fakhri Karray
Fakhri Karray
Citations: 252
h-index: 8
Mingming Gong
Mingming Gong
Citations: 48
h-index: 3

본 논문에서는 기존의 거칠거나 부분적인 운동학적 정보를 담은 행동 지시와 달리, 시작부터 완료까지의 핵심 순간에 다양한 운동학적 속성(방향, 궤적, 방향, 상대적 변위 등)을 밀집적으로 포함하는 운동학적 정보가 풍부한 시각-언어-행동(VLA) 태스크를 소개합니다. 이 태스크는 세밀하고 개인화된 조작을 지원합니다. 여기서 작업 목표는 불변이지만, 실행 궤적은 지시 수준의 운동학적 사양에 따라 조정되어야 합니다. 이러한 과제를 해결하기 위해, 목표 수준의 불변성과 운동학 수준의 다양성을 명시적으로 분리하는 이중 레벨 액션 표현과 이중 레벨 추론 토큰을 사용하여 언어와 행동을 정렬하는 명시적인, 지도 학습 기반의 중간 변수를 제공하는 VLA 프레임워크인 KineVLA를 제안합니다. 본 연구를 지원하기 위해, 시뮬레이션 환경과 실제 로봇 플랫폼을 모두 포함하는 운동학적 특징을 고려한 VLA 데이터셋을 구축하였으며, 이 데이터셋은 지시 수준의 운동학적 변동성과 이중 레벨 어노테이션을 포함합니다. LIBERO 데이터셋과 Realman-75 로봇을 사용한 광범위한 실험 결과, KineVLA는 운동학적 민감성 벤치마크에서 강력한 VLA 기본 모델보다 일관되게 우수한 성능을 보이며, 더욱 정확하고 제어 가능하며 일반화된 조작 행동을 달성하는 것을 확인했습니다.

Original Abstract

In this paper, we introduce a novel kinematics-rich vision-language-action (VLA) task, in which language commands densely encode diverse kinematic attributes (such as direction, trajectory, orientation, and relative displacement) from initiation through completion, at key moments, unlike existing action instructions that capture kinematics only coarsely or partially, thereby supporting fine-grained and personalized manipulation. In this setting, where task goals remain invariant while execution trajectories must adapt to instruction-level kinematic specifications. To address this challenge, we propose KineVLA, a vision-language-action framework that explicitly decouples goal-level invariance from kinematics-level variability through a bi-level action representation and bi-level reasoning tokens to serve as explicit, supervised intermediate variables that align language and action. To support this task, we construct the kinematics-aware VLA datasets spanning both simulation and real-world robotic platforms, featuring instruction-level kinematic variations and bi-level annotations. Extensive experiments on LIBERO and a Realman-75 robot demonstrate that KineVLA consistently outperforms strong VLA baselines on kinematics-sensitive benchmarks, achieving more precise, controllable, and generalizable manipulation behaviors.

0 Citations
0 Influential
4 Altmetric
20.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!