2601.03331v1 Jan 06, 2026 cs.CV

MMErroR: 시각-언어 모델의 오류 추론을 위한 벤치마크

MMErroR: A Benchmark for Erroneous Reasoning in Vision-Language Models

Liangsi Lu
Liangsi Lu
Citations: 2
h-index: 1
Jingchao Wang
Jingchao Wang
Citations: 2
h-index: 1
Yang Shi
Yang Shi
Citations: 2
h-index: 1
Bo Xu
Bo Xu
Citations: 19
h-index: 2
Yifeng Xie
Yifeng Xie
Citations: 0
h-index: 0
Minzhe Guo
Minzhe Guo
Citations: 2
h-index: 1
Mingxuan Huang
Mingxuan Huang
Citations: 1
h-index: 1
Zhihong Zhu
Zhihong Zhu
Citations: 106
h-index: 3
Zhiqi Huang
Zhiqi Huang
Citations: 103
h-index: 7

최근 시각-언어 모델(VLM)의 발전은 다중 모드 학습 성능을 향상시켰지만, 이러한 모델이 실제로 처리하는 내용을 진정으로 이해하는지 의문을 제기합니다. 특히, VLM이 추론 과정이 잘못되었음을 감지하고 오류 유형을 식별할 수 있습니까? 이러한 질문에 답하기 위해, 우리는 단일하고 일관된 추론 오류를 포함하는 2,013개의 샘플로 구성된 다중 모드 벤치마크인 MMErroR을 제시합니다. 이러한 샘플은 6개의 최상위 도메인에 걸쳐 24개의 하위 도메인을 포괄하며, 광범위한 적용 범위와 분류학적 풍부함을 보장합니다. 기존 벤치마크가 답변의 정확성에 초점을 맞추는 것과는 달리, MMErroR은 프로세스 수준의, 오류 중심적인 평가를 목표로 하며, 모델이 잘못된 추론을 감지하고 시각적 및 언어적 맥락 내에서 오류 유형을 분류하도록 요구합니다. 우리는 20개의 고급 VLM을 평가한 결과, 가장 뛰어난 모델(Gemini-3.0-Pro)조차도 66.47%의 경우에만 오류를 정확하게 분류했습니다. 이는 오류 추론을 식별하는 데 어려움이 있음을 강조합니다. 또한, 오류를 정확하게 식별하는 능력은 다중 모드 추론 모델의 기능에 대한 귀중한 통찰력을 제공합니다. 프로젝트 페이지: https://mmerror-benchmark.github.io

Original Abstract

Recent advances in Vision-Language Models (VLMs) have improved performance in multi-modal learning, raising the question of whether these models truly understand the content they process. Crucially, can VLMs detect when a reasoning process is wrong and identify its error type? To answer this, we present MMErroR, a multi-modal benchmark of 2,013 samples, each embedding a single coherent reasoning error. These samples span 24 subdomains across six top-level domains, ensuring broad coverage and taxonomic richness. Unlike existing benchmarks that focus on answer correctness, MMErroR targets a process-level, error-centric evaluation that requires models to detect incorrect reasoning and classify the error type within both visual and linguistic contexts. We evaluate 20 advanced VLMs, even the best model (Gemini-3.0-Pro) classifies the error in only 66.47\% of cases, underscoring the challenge of identifying erroneous reasoning. Furthermore, the ability to accurately identify errors offers valuable insights into the capabilities of multi-modal reasoning models. Project Page: https://mmerror-benchmark.github.io

0 Citations
0 Influential
3.5 Altmetric
17.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!