2604.14785v1 Apr 16, 2026 cs.AI

MirrorBench: 미러를 활용하여 멀티모달 대규모 언어 모델(MLLM)의 자기 중심 지능을 평가하는 방법

MirrorBench: Evaluating Self-centric Intelligence in MLLMs by Introducing a Mirror

Chunyi Li
Chunyi Li
Citations: 2,345
h-index: 24
Guangtao Zhai
Guangtao Zhai
Citations: 67
h-index: 4
Zicheng Zhang
Zicheng Zhang
Citations: 4,424
h-index: 33
Shengyu Guo
Shengyu Guo
Citations: 0
h-index: 0
Tongrui Ye
Tongrui Ye
Citations: 1
h-index: 1
Jianbo Zhang
Jianbo Zhang
Citations: 57
h-index: 2

최근 멀티모달 대규모 언어 모델(MLLM)의 발전은 인지 및 추론 능력에서 놀라운 발전을 보여주며, 이는 실제 환경에서의 지능을 구현할 수 있는 잠재력을 시사합니다. 기존 연구들은 주로 상호작용 환경에서 MLLM의 능력을 평가했지만, 대부분 외부 객체를 인식, 이해, 상호 작용하는 능력에 초점을 맞추고 있으며, 자기 중심 지능에 대한 체계적인 평가는 부족합니다. 이러한 문제를 해결하기 위해, 우리는 심리학의 고전적인 거울 자가 인식(MSR) 테스트에서 영감을 받아 시뮬레이션 기반 벤치마크인 MirrorBench를 소개합니다. MirrorBench는 계층화된 프레임워크를 통해 점진적으로 난이도가 높아지는 작업을 제공하며, 기본적인 시각적 인식부터 고급 수준의 자기 표현 능력까지 평가합니다. 선도적인 MLLM에 대한 실험 결과, 가장 기본적인 수준에서도 성능이 인간의 성능에 비해 현저히 떨어지는 것을 확인했으며, 이는 자기 참조적 이해에 대한 근본적인 한계를 드러냅니다. 본 연구는 심리학적 패러다임을 실제 환경에서의 지능 개념과 연결하여, 대규모 모델에서 일반적인 지능이 어떻게 나타나는지를 평가하기 위한 체계적인 프레임워크를 제시합니다. 프로젝트 페이지: https://fflahm.github.io/mirror-bench-page/.

Original Abstract

Recent progress in Multimodal Large Language Models (MLLMs) has demonstrated remarkable advances in perception and reasoning, suggesting their potential for embodied intelligence. While recent studies have evaluated embodied MLLMs in interactive settings, current benchmarks mainly target capabilities to perceive, understand, and interact with external objects, lacking a systematic evaluation of self-centric intelligence. To address this, we introduce MirrorBench, a simulation-based benchmark inspired by the classical Mirror Self-Recognition (MSR) test in psychology. MirrorBench extends this paradigm to embodied MLLMs through a tiered framework of progressively challenging tasks, assessing agents from basic visual perception to high-level self-representation. Experiments on leading MLLMs show that even at the lowest level, their performance remains substantially inferior to human performance, revealing fundamental limitations in self-referential understanding. Our study bridges psychological paradigms and embodied intelligence, offering a principled framework for evaluating the emergence of general intelligence in large models. Project page: https://fflahm.github.io/mirror-bench-page/.

0 Citations
0 Influential
16.5 Altmetric
82.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!