2604.15994v1 Apr 17, 2026 cs.AI

ReactBench: 화학 반응 다이어그램을 사용한 MLLM의 위상 추론 벤치마크

ReactBench: A Benchmark for Topological Reasoning in MLLMs on Chemical Reaction Diagrams

Yu Wang
Yu Wang
Citations: 276
h-index: 9
Zijing Liu
Zijing Liu
Citations: 290
h-index: 7
He Cao
He Cao
Citations: 44
h-index: 3
Bing Feng
Bing Feng
Citations: 29
h-index: 4
Shengyuan Bai
Shengyuan Bai
Citations: 22
h-index: 2
Leqing Chen
Leqing Chen
Citations: 20
h-index: 1
Qiang Xu
Qiang Xu
Citations: 30
h-index: 2
Yuanyuan Liu
Yuanyuan Liu
Citations: 1
h-index: 1
Yu Li
Yu Li
Citations: 2
h-index: 1

다중 모드 대규모 언어 모델(MLLM)은 개별 시각적 요소를 인식하고 간단한 선형 다이어그램에 대한 추론 능력이 뛰어납니다. 그러나 분기 경로, 융합 흐름, 순환 종속성을 포함하는 복잡한 위상 구조에 직면하면, 심지어는 말단점 개수 세기와 같은 기본적인 작업에서도 추론 능력이 현저히 저하됩니다. 기존 벤치마크는 이러한 격차를 파악하지 못하고, 구조적 추론보다는 의미론적 이해에 초점을 맞추고 있습니다. 본 연구에서는 화학 반응 다이어그램을 사용하여 구조적 추론의 근본적인 한계를 드러내는 벤치마크인 ReactBench를 소개합니다. 이러한 실제 과학 다이어그램은 선형 사슬에서 순환 그래프에 이르기까지 다양한 구조를 자연스럽게 포함하며, 정밀한 지역 인식과 일관된 전역 추론을 모두 필요로 하므로 이상적인 테스트 환경을 제공합니다. 본 벤치마크는 1,618개의 전문가가 주석을 달아 만든 질문-답변 쌍으로 구성되며, 4가지 계층적 작업 차원을 포함합니다. 17개의 MLLM에 대한 광범위한 평가 결과, 기준 작업과 전체적인 구조적 추론 작업 간의 성능 격차가 30% 이상인 것으로 나타났습니다. 제어된 실험을 통해 이러한 병목 현상이 인식 능력이 아닌 추론 능력에 기인한다는 것을 확인했습니다. 이러한 결과는 구조적 이해의 근본적인 결함을 드러내며, 시각적 추론을 발전시킬 수 있는 방향을 제시합니다.

Original Abstract

Multimodal Large Language Models (MLLMs) excel at recognizing individual visual elements and reasoning over simple linear diagrams. However, when faced with complex topological structures involving branching paths, converging flows, and cyclic dependencies, their reasoning capabilities degrade sharply, even on tasks as basic as counting endpoints. Existing benchmarks fail to probe this gap, focusing on semantic comprehension rather than structural reasoning. We introduce ReactBench, a benchmark that reveals fundamental limitations in structural reasoning through chemical reaction diagrams. These real-world scientific diagrams offer an ideal testbed because they naturally span diverse structures from linear chains to cyclic graphs, while requiring both precise local recognition and coherent global reasoning. Our benchmark comprises 1,618 expert-annotated QA pairs across four hierarchical task dimensions. Extensive evaluation across 17 MLLMs reveals a significant performance gap exceeding 30% between anchor-based tasks and holistic structural reasoning tasks. Controlled ablations confirm this bottleneck lies in reasoning, not perception. These findings expose a fundamental deficit in structural understanding and establish directions for advancing visual reasoning.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!