2602.15892v1 Feb 10, 2026 cs.CV

시각-언어 모델에서의 자기 중심 편향

Egocentric Bias in Vision-Language Models

Ran Ji
Ran Ji
Citations: 2
h-index: 1
Dezhi Luo
Dezhi Luo
Citations: 102
h-index: 6
Yijiang Li
Yijiang Li
Citations: 80
h-index: 5
Maijunxian Wang
Maijunxian Wang
Citations: 4
h-index: 1
Bingyang Wang
Bingyang Wang
Citations: 46
h-index: 3
Tianwei Zhao
Tianwei Zhao
Citations: 65
h-index: 3
Qingying Gao
Qingying Gao
Citations: 69
h-index: 5
Emmy Liu
Emmy Liu
CMU
Citations: 418
h-index: 8
Hokin Deng
Hokin Deng
Citations: 96
h-index: 6

시각적 관점 수용은 타인의 관점에서 세상이 어떻게 보이는지 추론하는 것으로, 사회적 인지의 기본입니다. 본 연구에서는 시각-언어 모델의 2단계 시각적 관점 수용(L2 VPT) 능력을 진단하기 위한 벤치마크인 FlipSet을 소개합니다. 이 작업은 다른 에이전트의 관점에서 2D 문자열을 180도 회전시키는 것을 시뮬레이션하며, 3차원 장면의 복잡성으로부터 공간 변환을 분리합니다. 103개의 시각-언어 모델을 평가한 결과, 체계적인 자기 중심 편향이 나타났습니다. 대부분의 모델이 우연 수준 이하의 성능을 보였으며, 약 3/4의 오류가 카메라의 시점을 그대로 재현하는 경향을 보였습니다. 통제 실험 결과, 모델은 개별적으로는 높은 공감 능력 정확도와 우연 이상의 정신 회전 능력을 보이지만, 통합이 필요한 경우에는 심각하게 실패하는 복합적인 결함이 있음을 알 수 있습니다. 이러한 차이는 현재 시각-언어 모델이 사회적 인지 능력을 공간 연산과 결합하는 데 필요한 메커니즘이 부족하다는 것을 시사하며, 모델 기반 공간 추론에 근본적인 한계가 있음을 나타냅니다. FlipSet은 다중 모드 시스템의 관점 수용 능력을 진단하기 위한 인지적으로 기반한 테스트 환경을 제공합니다.

Original Abstract

Visual perspective taking--inferring how the world appears from another's viewpoint--is foundational to social cognition. We introduce FlipSet, a diagnostic benchmark for Level-2 visual perspective taking (L2 VPT) in vision-language models. The task requires simulating 180-degree rotations of 2D character strings from another agent's perspective, isolating spatial transformation from 3D scene complexity. Evaluating 103 VLMs reveals systematic egocentric bias: the vast majority perform below chance, with roughly three-quarters of errors reproducing the camera viewpoint. Control experiments expose a compositional deficit--models achieve high theory-of-mind accuracy and above-chance mental rotation in isolation, yet fail catastrophically when integration is required. This dissociation indicates that current VLMs lack the mechanisms needed to bind social awareness to spatial operations, suggesting fundamental limitations in model-based spatial reasoning. FlipSet provides a cognitively grounded testbed for diagnosing perspective-taking capabilities in multimodal systems.

0 Citations
0 Influential
4 Altmetric
20.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!