LLM과 VLM이 시각 정보 없이 시점 회전을 어떻게 이해하는가? - 해석 가능성 연구
How Do LLMs and VLMs Understand Viewpoint Rotation Without Vision? An Interpretability Study
지난 1년간, 공간 지능에 대한 관심이 높아지고 있습니다. 기존 연구들은 주로 시각-공간 지능의 관점에서 모델이 시각적 입력으로부터 시각 공간 정보를 활용하도록 합니다. 그러나 시각 정보가 없는 경우, 언어 지능만으로 모델에게 공간 지능을 부여할 수 있는지, 그리고 모델이 텍스트만으로 관련된 작업을 어떻게 수행하는지는 아직 탐구되지 않았습니다. 따라서 본 논문에서는 공간 지능의 기본적인 핵심 능력인 시점 회전 이해(Viewpoint Rotation Understanding, VRU)를 언어적 관점에서 분석합니다. 구체적으로, LLM과 VLM에게 시점 회전 및 여러 단계에 걸친 관찰에 대한 텍스트 설명을 제공하고, 모델이 최종 시점을 추론하고 해당 관찰 결과를 예측하도록 합니다. 실험 결과, LLM과 VLM 모두 제안한 데이터셋에서 낮은 성능을 보였으며, 이는 인간이 쉽게 100% 정확도를 달성하는 것과 대조적으로, 현재 모델의 능력과 공간 지능의 요구 사항 간에 상당한 격차가 있음을 시사합니다. 근본적인 작동 원리를 밝히기 위해, 레이어별 프로빙 분석과 헤드별 인과적 개입을 수행했습니다. 분석 결과, 모델이 숨겨진 상태에 시점 정보를 인코딩하지만, 시점 위치와 해당 관찰 결과를 연결하는 데 어려움을 겪으며, 최종 레이어에서 환각 현상이 발생하는 것으로 나타났습니다. 마지막으로, 인과적 개입을 통해 식별된 핵심 어텐션 헤드를 선택적으로 미세 조정하여 VRU 성능을 향상시켰습니다. 실험 결과, 이러한 선택적 미세 조정은 VRU 성능을 향상시키면서 일반적인 능력의 파국적인 손실을 방지하는 것으로 나타났습니다. 데이터셋 및 코드는 https://github.com/Young-Zhen/VRU_Interpret 에서 공개됩니다.
Over the past year, spatial intelligence has drawn increasing attention. Many prior works study it from the perspective of visual-spatial intelligence, where models have access to visuospatial information from visual inputs. However, in the absence of visual information, whether linguistic intelligence alone is sufficient to endow models with spatial intelligence, and how models perform relevant tasks with text-only inputs still remain unexplored. Therefore, in this paper, we focus on a fundamental and critical capability in spatial intelligence from a linguistic perspective: viewpoint rotation understanding (VRU). Specifically, LLMs and VLMs are asked to infer their final viewpoint and predict the corresponding observation in an environment given textual description of viewpoint rotation and observation over multiple steps. We find that both LLMs and VLMs perform poorly on our proposed dataset while human can easily achieve 100% accuracy, indicating a substantial gap between current model capabilities and the requirements of spatial intelligence. To uncover the underlying mechanisms, we conduct a layer-wise probing analysis and head-wise causal intervention. Our findings reveal that although models encode viewpoint information in the hidden states, they appear to struggle to bind the viewpoint position with corresponding observation, resulting in a hallucination in final layers. Finally, we selectively fine-tune the key attention heads identified by causal intervention to improve VRU performance. Experimental results demonstrate that such selective fine-tuning achieves improved VRU performance while avoiding catastrophic forgetting of generic abilities. Our dataset and code will be released at https://github.com/Young-Zhen/VRU_Interpret .
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.