2603.28651v1 Mar 27, 2026 cs.AI

검색이 아닌 스캔: 스캔 기반 학술 논문 추론에 대한 멀티모달 대규모 언어 모델(MLLM) 성능 평가

Not Search, But Scan: Benchmarking MLLMs on Scan-Oriented Academic Paper Reasoning

Jiacheng Liu
Jiacheng Liu
Citations: 8
h-index: 1
Xiang Wang
Xiang Wang
Citations: 117
h-index: 4
Rongjin Li
Rongjin Li
Citations: 25
h-index: 2
Zichen Tang
Zichen Tang
School of Computer Science, Beijing University of Posts and Telecommunications
Citations: 140
h-index: 4
Xinyi Hu
Xinyi Hu
Citations: 1
h-index: 1
Zheng Wang
Zheng Wang
Citations: 13
h-index: 1
Zhengyu Lu
Zhengyu Lu
Citations: 43
h-index: 3
Yiling Huang
Yiling Huang
Citations: 2,689
h-index: 2
Jiayuan Chen
Jiayuan Chen
Citations: 36
h-index: 3
Wei Tan
Wei Tan
Citations: 11
h-index: 3
Zhongjun Yang
Zhongjun Yang
Citations: 25
h-index: 2
E. Haihong
E. Haihong
Citations: 9
h-index: 1

멀티모달 대규모 언어 모델(MLLM)의 빠른 발전으로 인해 인공지능은 이미 문헌 검색 및 특정 추론 작업에서 뛰어난 성능을 보이며 인간 연구자에게 유용한 도구로 활용되고 있지만, 아직 자율적인 연구 수준에는 미치지 못합니다. 그 근본적인 이유는 현재 학술 논문 추론 연구가 대부분 사전에 지정된 목표에 집중된 검색 중심의 패러다임에 갇혀 있으며, 관련성 검색에 기반한 추론은 연구자가 수행하는 전체 문서에 대한 이해, 추론 및 검증을 지원하기 어렵기 때문입니다. 이러한 격차를 해소하기 위해, 우리는 학술 논문 추론을 위한 새로운 벤치마크인 **ScholScan**을 제안합니다. ScholScan은 모델이 인간 연구자와 같이 전체 논문을 읽고 교차 검증하도록 하는 스캔 기반의 작업 설정을 도입하여 문서의 일관성 문제를 식별합니다. 이 벤치마크는 13개의 자연과학 분야에서 715개의 논문에서 추출한 1,800개의 신중하게 주석이 달린 질문으로 구성되어 있으며, 증거 위치 및 추론 과정을 자세히 설명하고, 통일된 평가 프로토콜을 제공합니다. 우리는 24가지 입력 구성에서 15개의 모델을 평가하고, 모든 오류 범주에 대한 MLLM의 능력을 세밀하게 분석했습니다. 전반적으로, 검색 증강 생성(RAG) 방법은 상당한 개선을 가져오지 못했으며, 이는 현재 MLLM이 스캔 기반 작업에서 보이는 체계적인 결점을 드러내고 ScholScan이 제시하는 어려움을 강조합니다. 우리는 ScholScan이 스캔 기반 작업 패러다임의 선도적이고 대표적인 연구가 될 것으로 기대합니다.

Original Abstract

With the rapid progress of multimodal large language models (MLLMs), AI already performs well at literature retrieval and certain reasoning tasks, serving as a capable assistant to human researchers, yet it remains far from autonomous research. The fundamental reason is that current work on academic paper reasoning is largely confined to a search-oriented paradigm centered on pre-specified targets, with reasoning grounded in relevance retrieval, which struggles to support researcher-style full-document understanding, reasoning, and verification. To bridge this gap, we propose \textbf{ScholScan}, a new benchmark for academic paper reasoning. ScholScan introduces a scan-oriented task setting that asks models to read and cross-check entire papers like human researchers, scanning the document to identify consistency issues. The benchmark comprises 1,800 carefully annotated questions drawn from nine error categories across 13 natural-science domains and 715 papers, and provides detailed annotations for evidence localization and reasoning traces, together with a unified evaluation protocol. We assessed 15 models across 24 input configurations and conducted a fine-grained analysis of MLLM capabilities for all error categories. Across the board, retrieval-augmented generation (RAG) methods yield no significant improvements, revealing systematic deficiencies of current MLLMs on scan-oriented tasks and underscoring the challenge posed by ScholScan. We expect ScholScan to be the leading and representative work of the scan-oriented task paradigm.

0 Citations
0 Influential
2 Altmetric
10.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!