LLM은 픽셀 없이도 '볼' 수 있는가? 텍스트 설명을 통한 공간 지능 벤치마킹
Can LLMs See Without Pixels? Benchmarking Spatial Intelligence from Textual Descriptions
최근의 공간 지능(SI) 발전은 주로 비전-언어 모델(VLM)에 의존해 왔지만, 여전히 중요한 질문이 남아 있습니다: 공간적 이해는 시각 인코더에서 비롯되는 것인가, 아니면 근본적인 추론 메커니즘에서 비롯되는 것인가? 이러한 질문에 영감을 받아, 우리는 픽셀 수준의 입력 없이 대규모 언어 모델(LLM)의 공간 지능 성능을 평가하기 위한 새로운 벤치마크인 SiT-Bench를 소개합니다. SiT-Bench는 5가지 주요 범주 및 17개의 하위 작업에 걸쳐 3,800개 이상의 전문가가 주석을 단 항목으로 구성되어 있으며, 여기에는 자기 중심 탐색 및 시점 변환에서부터 정밀한 로봇 조작까지 포함됩니다. 우리는 단일/다중 뷰 장면을 고품질의 좌표 정보를 포함하는 텍스트 설명으로 변환하여, LLM이 시각적 패턴 매칭이 아닌 상징적인 텍스트 추론을 수행하도록 도전합니다. 최첨단(SOTA) LLM의 평가 결과는 모델이 지역화된 의미론적 작업에서는 능숙함을 보이지만, 전반적인 일관성 측면에서 상당한 '공간적 격차'가 여전히 존재한다는 것을 보여줍니다. 주목할 만한 점은 명시적인 공간 추론이 성능을 크게 향상시킨다는 것으로, 이는 LLM이 잠재적인 세계 모델링 능력을 가지고 있음을 시사합니다. 제안하는 데이터셋 SiT-Bench는 향후 VLM 및 구체화된 에이전트를 위한 공간적으로 기반한 LLM 아키텍처 개발을 촉진하는 데 중요한 역할을 할 것입니다. 저희의 코드 및 벤치마크는 https://github.com/binisalegend/SiT-Bench 에서 공개될 예정입니다.
Recent advancements in Spatial Intelligence (SI) have predominantly relied on Vision-Language Models (VLMs), yet a critical question remains: does spatial understanding originate from visual encoders or the fundamental reasoning backbone? Inspired by this question, we introduce SiT-Bench, a novel benchmark designed to evaluate the SI performance of Large Language Models (LLMs) without pixel-level input, comprises over 3,800 expert-annotated items across five primary categories and 17 subtasks, ranging from egocentric navigation and perspective transformation to fine-grained robotic manipulation. By converting single/multi-view scenes into high-fidelity, coordinate-aware textual descriptions, we challenge LLMs to perform symbolic textual reasoning rather than visual pattern matching. Evaluation results of state-of-the-art (SOTA) LLMs reveals that while models achieve proficiency in localized semantic tasks, a significant "spatial gap" remains in global consistency. Notably, we find that explicit spatial reasoning significantly boosts performance, suggesting that LLMs possess latent world-modeling potential. Our proposed dataset SiT-Bench serves as a foundational resource to foster the development of spatially-grounded LLM backbones for future VLMs and embodied agents. Our code and benchmark will be released at https://github.com/binisalegend/SiT-Bench .
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.