로봇 공학에서의 시각-언어-행동: 데이터셋, 벤치마크 및 데이터 엔진에 대한 개관
Vision-Language-Action in Robotics: A Survey of Datasets, Benchmarks, and Data Engines
시각-언어-행동(VLA) 모델의 놀라운 발전에도 불구하고, 몸체 기반 학습의 핵심적인 난제가 충분히 연구되지 않았습니다. 본 논문에서는 VLA 분야의 미래 발전은 모델 아키텍처보다는 고품질 데이터 엔진과 체계적인 평가 프로토콜의 공동 설계에 더 크게 의존할 것이라고 주장합니다. 이에 따라, 본 논문에서는 VLA 연구를 데이터 중심적인 관점에서 세 가지 축, 즉 데이터셋, 벤치마크 및 데이터 엔진으로 나누어 체계적으로 분석합니다. 데이터셋의 경우, 실제 데이터와 합성 데이터를 몸체 다양성, 모달리티 구성 및 행동 공간 정의 측면에서 분류하여, 대규모 데이터 수집을 근본적으로 제한하는 충실도-비용 간의 균형 문제를 밝혀냅니다. 벤치마크의 경우, 과제 복잡성과 환경 구조를 함께 분석하여, 기존 프로토콜이 해결하지 못하는 구성을 통한 일반화 및 장기적인 추론 평가의 구조적인 격차를 드러냅니다. 데이터 엔진의 경우, 시뮬레이션 기반, 비디오 재구성 및 자동화된 작업 생성 패러다임을 검토하고, 물리적 기반 및 시뮬레이션-실제 전송 측면에서 공유되는 한계를 파악합니다. 이러한 분석을 종합하여, 본 논문에서는 표현 정렬, 다중 모달 지도 학습, 추론 평가 및 확장 가능한 데이터 생성이라는 네 가지 주요 과제를 제시합니다. 이러한 과제들을 해결하기 위해서는 데이터 인프라를 단순한 배경 요소가 아닌, 핵심적인 연구 문제로 간주해야 합니다.
Despite remarkable progress in Vision--Language--Action (VLA) models, a central bottleneck remains underexamined: the data infrastructure that underlies embodied learning. In this survey, we argue that future advances in VLA will depend less on model architecture and more on the co-design of high-fidelity data engines and structured evaluation protocols. To this end, we present a systematic, data-centric analysis of VLA research organized around three pillars: datasets, benchmarks, and data engines. For datasets, we categorize real-world and synthetic corpora along embodiment diversity, modality composition, and action space formulation, revealing a persistent fidelity-cost trade-off that fundamentally constrains large-scale collection. For benchmarks, we analyze task complexity and environment structure jointly, exposing structural gaps in compositional generalization and long-horizon reasoning evaluation that existing protocols fail to address. For data engines, we examine simulation-based, video-reconstruction, and automated task-generation paradigms, identifying their shared limitations in physical grounding and sim-to-real transfer. Synthesizing these analyses, we distill four open challenges: representation alignment, multimodal supervision, reasoning assessment, and scalable data generation. Addressing them, we argue, requires treating data infrastructure as a first-class research problem rather than a background concern.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.