공간에 대한 집중: 시각-언어 모델의 기능적 역할과 공간 추론
Attention in Space: Functional Roles of VLM Heads for Spatial Reasoning
대규모 시각-언어 모델(VLM)의 놀라운 발전에도 불구하고, 공간 추론은 여전히 해결해야 할 과제로 남아 있습니다. 본 연구에서는 VLM 내의 어텐션 헤드들이 공간 추론에 어떻게 기여하는지, 즉 그 기능적 역할을 기계적 해석 가능성(mechanistic interpretability) 관점에서 분석합니다. 우리는 복잡한 공간 추론 질문을 단계별 하위 질문으로 분해하여 인간과 유사한 추론 과정을 모방하는 데이터셋인 CogVSR을 소개합니다. 각 하위 질문은 공간 인식 또는 관계 추론과 같은 특정 인지 기능과 연결되어 있습니다. CogVSR을 기반으로, 우리는 이러한 기능에 특화된 어텐션 헤드를 식별하고 특징짓기 위한 탐색 프레임워크를 개발했습니다. 다양한 VLM 패밀리에 대한 분석 결과, 이러한 기능적 헤드들은 보편적으로 희소하며, 그 개수와 분포는 기능에 따라 다릅니다. 특히, 공간 추론에 특화된 헤드는 다른 인지 기능에 대한 헤드보다 적으며, 이는 그 희소성을 강조합니다. 우리는 잠재적인 공간 추론 헤드를 활성화하는 방법을 제안하여 공간 이해력을 향상시킵니다. 개입 실험을 통해, 기능적 헤드를 제거하면 성능이 저하되는 반면, 강조하면 정확도가 향상되는 등 공간 추론에서의 중요한 역할을 입증합니다. 본 연구는 VLM이 공간에 어떻게 집중하는지에 대한 새로운 해석적 통찰력을 제공하며, 다중 모달 모델에서 복잡한 공간 추론 능력을 향상시키는 데 기여할 수 있습니다.
Despite remarkable advances in large Vision-Language Models (VLMs), spatial reasoning remains a persistent challenge. In this work, we investigate how attention heads within VLMs contribute to spatial reasoning by analyzing their functional roles through a mechanistic interpretability lens. We introduce CogVSR, a dataset that decomposes complex spatial reasoning questions into step-by-step subquestions designed to simulate human-like reasoning via a chain-of-thought paradigm, with each subquestion linked to specific cognitive functions such as spatial perception or relational reasoning. Building on CogVSR, we develop a probing framework to identify and characterize attention heads specialized for these functions. Our analysis across diverse VLM families reveals that these functional heads are universally sparse, vary in number and distribution across functions. Notably, spatially specialized heads are fewer than those for other cognitive functions, highlighting their scarcity. We propose methods to activate latent spatial heads, improving spatial understanding. Intervention experiments further demonstrate their critical role in spatial reasoning: removing functional heads leads to performance degradation, while emphasizing them enhances accuracy. This study provides new interpretability driven insights into how VLMs attend to space and paves the way for enhancing complex spatial reasoning in multimodal models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.