2604.23001v1 Apr 24, 2026 cs.RO

로봇 공학에서의 시각-언어-행동: 데이터셋, 벤치마크 및 데이터 엔진에 대한 개관

Vision-Language-Action in Robotics: A Survey of Datasets, Benchmarks, and Data Engines

Tingting Du
Tingting Du
Citations: 7
h-index: 2
Yexiao He
Yexiao He
Citations: 236
h-index: 8
Guoheng Sun
Guoheng Sun
Citations: 352
h-index: 9
Hanrong Zhang
Hanrong Zhang
Citations: 217
h-index: 3
Ziyao Wang
Ziyao Wang
Citations: 18
h-index: 3
Bingying Wang
Bingying Wang
Citations: 23
h-index: 2
Tianyang Chen
Tianyang Chen
Citations: 29
h-index: 2
Zheyu Shen
Zheyu Shen
Citations: 326
h-index: 8
Wanghao Ye
Wanghao Ye
Citations: 78
h-index: 6
Ang Li
Ang Li
Citations: 330
h-index: 9

시각-언어-행동(VLA) 모델의 놀라운 발전에도 불구하고, 몸체 기반 학습의 핵심적인 난제가 충분히 연구되지 않았습니다. 본 논문에서는 VLA 분야의 미래 발전은 모델 아키텍처보다는 고품질 데이터 엔진과 체계적인 평가 프로토콜의 공동 설계에 더 크게 의존할 것이라고 주장합니다. 이에 따라, 본 논문에서는 VLA 연구를 데이터 중심적인 관점에서 세 가지 축, 즉 데이터셋, 벤치마크 및 데이터 엔진으로 나누어 체계적으로 분석합니다. 데이터셋의 경우, 실제 데이터와 합성 데이터를 몸체 다양성, 모달리티 구성 및 행동 공간 정의 측면에서 분류하여, 대규모 데이터 수집을 근본적으로 제한하는 충실도-비용 간의 균형 문제를 밝혀냅니다. 벤치마크의 경우, 과제 복잡성과 환경 구조를 함께 분석하여, 기존 프로토콜이 해결하지 못하는 구성을 통한 일반화 및 장기적인 추론 평가의 구조적인 격차를 드러냅니다. 데이터 엔진의 경우, 시뮬레이션 기반, 비디오 재구성 및 자동화된 작업 생성 패러다임을 검토하고, 물리적 기반 및 시뮬레이션-실제 전송 측면에서 공유되는 한계를 파악합니다. 이러한 분석을 종합하여, 본 논문에서는 표현 정렬, 다중 모달 지도 학습, 추론 평가 및 확장 가능한 데이터 생성이라는 네 가지 주요 과제를 제시합니다. 이러한 과제들을 해결하기 위해서는 데이터 인프라를 단순한 배경 요소가 아닌, 핵심적인 연구 문제로 간주해야 합니다.

Original Abstract

Despite remarkable progress in Vision--Language--Action (VLA) models, a central bottleneck remains underexamined: the data infrastructure that underlies embodied learning. In this survey, we argue that future advances in VLA will depend less on model architecture and more on the co-design of high-fidelity data engines and structured evaluation protocols. To this end, we present a systematic, data-centric analysis of VLA research organized around three pillars: datasets, benchmarks, and data engines. For datasets, we categorize real-world and synthetic corpora along embodiment diversity, modality composition, and action space formulation, revealing a persistent fidelity-cost trade-off that fundamentally constrains large-scale collection. For benchmarks, we analyze task complexity and environment structure jointly, exposing structural gaps in compositional generalization and long-horizon reasoning evaluation that existing protocols fail to address. For data engines, we examine simulation-based, video-reconstruction, and automated task-generation paradigms, identifying their shared limitations in physical grounding and sim-to-real transfer. Synthesizing these analyses, we distill four open challenges: representation alignment, multimodal supervision, reasoning assessment, and scalable data generation. Addressing them, we argue, requires treating data infrastructure as a first-class research problem rather than a background concern.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!