2601.03590v1 Jan 07, 2026 cs.CV

LLM은 픽셀 없이도 '볼' 수 있는가? 텍스트 설명을 통한 공간 지능 벤치마킹

Can LLMs See Without Pixels? Benchmarking Spatial Intelligence from Textual Descriptions

Zhongbin Guo
Zhongbin Guo
Citations: 3
h-index: 1
Zhen Yang
Zhen Yang
Citations: 13
h-index: 3
Yushan Li
Yushan Li
Citations: 2
h-index: 1
Xinyue Zhang
Xinyue Zhang
Citations: 5
h-index: 2
Wenyu Gao
Wenyu Gao
Citations: 2
h-index: 1
Jiacheng Wang
Jiacheng Wang
Citations: 0
h-index: 0
Chengzhi Li
Chengzhi Li
Citations: 8
h-index: 2
Xiang-Yang Liu
Xiang-Yang Liu
Citations: 0
h-index: 0
Ping Jian
Ping Jian
Citations: 18
h-index: 3

최근의 공간 지능(SI) 발전은 주로 비전-언어 모델(VLM)에 의존해 왔지만, 여전히 중요한 질문이 남아 있습니다: 공간적 이해는 시각 인코더에서 비롯되는 것인가, 아니면 근본적인 추론 메커니즘에서 비롯되는 것인가? 이러한 질문에 영감을 받아, 우리는 픽셀 수준의 입력 없이 대규모 언어 모델(LLM)의 공간 지능 성능을 평가하기 위한 새로운 벤치마크인 SiT-Bench를 소개합니다. SiT-Bench는 5가지 주요 범주 및 17개의 하위 작업에 걸쳐 3,800개 이상의 전문가가 주석을 단 항목으로 구성되어 있으며, 여기에는 자기 중심 탐색 및 시점 변환에서부터 정밀한 로봇 조작까지 포함됩니다. 우리는 단일/다중 뷰 장면을 고품질의 좌표 정보를 포함하는 텍스트 설명으로 변환하여, LLM이 시각적 패턴 매칭이 아닌 상징적인 텍스트 추론을 수행하도록 도전합니다. 최첨단(SOTA) LLM의 평가 결과는 모델이 지역화된 의미론적 작업에서는 능숙함을 보이지만, 전반적인 일관성 측면에서 상당한 '공간적 격차'가 여전히 존재한다는 것을 보여줍니다. 주목할 만한 점은 명시적인 공간 추론이 성능을 크게 향상시킨다는 것으로, 이는 LLM이 잠재적인 세계 모델링 능력을 가지고 있음을 시사합니다. 제안하는 데이터셋 SiT-Bench는 향후 VLM 및 구체화된 에이전트를 위한 공간적으로 기반한 LLM 아키텍처 개발을 촉진하는 데 중요한 역할을 할 것입니다. 저희의 코드 및 벤치마크는 https://github.com/binisalegend/SiT-Bench 에서 공개될 예정입니다.

Original Abstract

Recent advancements in Spatial Intelligence (SI) have predominantly relied on Vision-Language Models (VLMs), yet a critical question remains: does spatial understanding originate from visual encoders or the fundamental reasoning backbone? Inspired by this question, we introduce SiT-Bench, a novel benchmark designed to evaluate the SI performance of Large Language Models (LLMs) without pixel-level input, comprises over 3,800 expert-annotated items across five primary categories and 17 subtasks, ranging from egocentric navigation and perspective transformation to fine-grained robotic manipulation. By converting single/multi-view scenes into high-fidelity, coordinate-aware textual descriptions, we challenge LLMs to perform symbolic textual reasoning rather than visual pattern matching. Evaluation results of state-of-the-art (SOTA) LLMs reveals that while models achieve proficiency in localized semantic tasks, a significant "spatial gap" remains in global consistency. Notably, we find that explicit spatial reasoning significantly boosts performance, suggesting that LLMs possess latent world-modeling potential. Our proposed dataset SiT-Bench serves as a foundational resource to foster the development of spatially-grounded LLM backbones for future VLMs and embodied agents. Our code and benchmark will be released at https://github.com/binisalegend/SiT-Bench .

2 Citations
0 Influential
30.45879734614 Altmetric
154.3 Score
Original PDF
5

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!