2603.18892v1 Mar 19, 2026 cs.CV

MultihopSpatial: 시각-언어 모델을 위한 다중 단계의 복합적 공간 추론 벤치마크

MultihopSpatial: Multi-hop Compositional Spatial Reasoning Benchmark for Vision-Language Model

Youngwan Lee
Youngwan Lee
Citations: 37
h-index: 4
Soojin Jang
Soojin Jang
Citations: 5
h-index: 1
Yoorhim Cho
Yoorhim Cho
Citations: 22
h-index: 2
Sung Ju Hwang
Sung Ju Hwang
Citations: 89
h-index: 6
Seunghwan Lee
Seunghwan Lee
Citations: 6
h-index: 1
Yong-Ju Lee
Yong-Ju Lee
Citations: 28
h-index: 3

공간 추론은 특히 물리적 환경에서 시각-언어-행동(VLA) 에이전트로 사용될 때, 시각-언어 모델(VLM)의 핵심적인 기능입니다. 그러나 기존 벤치마크는 주로 단순하고 단일 단계의 관계에 초점을 맞추고 있어, 실제 시나리오에서 필수적인 다중 단계의 복합적 추론과 정확한 시각적 정합성을 간과합니다. 이러한 문제를 해결하기 위해, 우리는 다중 단계 및 복합적 공간 추론을 위한 포괄적인 벤치마크인 MultihopSpatial을 제시합니다. MultihopSpatial은 다음과 같은 세 가지 주요 기여를 합니다: (1) 다양한 공간적 관점을 가진 1~3단계의 복잡한 질의를 포함하는, 다중 단계 및 복합적 공간 추론을 위한 벤치마크를 제공합니다. (2) Acc@50IoU라는 새로운 평가 지표를 도입하여, 답변 선택과 정확한 경계 상자 예측을 동시에 평가함으로써 추론 능력과 시각적 정합성을 함께 고려합니다. (3) 공간 지능 개발을 위한 대규모 학습 데이터셋인 MultihopSpatial-Train을 제공합니다. 37개의 최첨단 VLM을 광범위하게 평가한 결과, 8가지 중요한 통찰력을 얻었습니다. 이러한 결과는 복합적 공간 추론이 여전히 해결해야 할 과제임을 보여줍니다. 마지막으로, MultihopSpatial 데이터셋을 활용한 강화 학습을 통해 VLM의 내재적인 공간 추론 능력과 하위 작업에서의 로봇 제어 성능이 향상되는 것을 확인했습니다.

Original Abstract

Spatial reasoning is foundational for Vision-Language Models (VLMs), particularly when deployed as Vision-Language-Action (VLA) agents in physical environments. However, existing benchmarks predominantly focus on elementary, single-hop relations, neglecting the multi-hop compositional reasoning and precise visual grounding essential for real-world scenarios. To address this, we introduce MultihopSpatial, offering three key contributions: (1) A comprehensive benchmark designed for multi-hop and compositional spatial reasoning, featuring 1- to 3-hop complex queries across diverse spatial perspectives. (2) Acc@50IoU, a complementary metric that simultaneously evaluates reasoning and visual grounding by requiring both answer selection and precise bounding box prediction - capabilities vital for robust VLA deployment. (3) MultihopSpatial-Train, a dedicated large-scale training corpus to foster spatial intelligence. Extensive evaluation of 37 state-of-the-art VLMs yields eight key insights, revealing that compositional spatial reasoning remains a formidable challenge. Finally, we demonstrate that reinforcement learning post-training on our corpus enhances both intrinsic VLM spatial reasoning and downstream embodied manipulation performance.

1 Citations
0 Influential
3 Altmetric
16.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!