PaperScope: 광범위한 과학 논문을 대상으로 하는 에이전트 기반 심층 연구를 위한 다중 모드, 다중 문서 벤치마크
PaperScope: A Multi-Modal Multi-Document Benchmark for Agentic Deep Research Across Massive Scientific Papers
다중 모드 대규모 언어 모델(MLLM)을 활용하여 최첨단 과학 연구를 가속화하는 것은 매우 유망하지만, 이러한 시스템을 엄격하게 평가하는 방법에 대한 명확성은 여전히 부족합니다. 기존 벤치마크는 주로 단일 문서 이해에 초점을 맞추는 반면, 실제 과학 연구 워크플로우는 텍스트, 표, 그림을 포함한 여러 논문에서 증거를 통합해야 합니다. 결과적으로, 다중 모드, 다중 문서 과학적 추론은 아직 충분히 연구되지 않았으며 체계적인 평가가 부족합니다. 이러한 격차를 해소하기 위해, 에이전트 기반의 심층 연구를 위해 설계된 다중 모드, 다중 문서 벤치마크인 PaperScope를 소개합니다. PaperScope는 다음과 같은 세 가지 장점을 제공합니다. (1) 구조화된 과학적 기반: 3년 동안의 2,000개 이상의 AI 논문 지식 그래프를 기반으로 구축되어 연구 중심의 질문에 대한 구조화된 기반을 제공합니다. (2) 의미적으로 밀집된 증거 구성: 의미적으로 관련된 핵심 정보 노드를 통합하고, 최적화된 랜덤 워크 기사 선택기를 사용하여 주제적으로 일관된 논문 세트를 샘플링하여 충분한 의미적 밀도와 작업 복잡성을 보장합니다. (3) 과학적 추론에 대한 다중 작업 평가: 2,000개 이상의 추론, 검색, 요약 및 문제 해결 관련 질의응답 쌍을 포함하여 다단계 과학적 추론을 평가할 수 있습니다. 실험 결과는 OpenAI Deep Research 및 Tongyi Deep Research와 같은 고급 시스템조차도 PaperScope에서 제한적인 점수를 달성한다는 것을 보여주며, 이는 장문 컨텍스트 검색 및 심층 다중 소스 추론의 어려움을 강조합니다. 따라서 PaperScope는 대규모 다중 모드, 다중 소스 심층 연구 데이터 세트를 구축하기 위한 확장 가능한 파이프라인과 함께 엄격한 벤치마크를 제공합니다.
Leveraging Multi-modal Large Language Models (MLLMs) to accelerate frontier scientific research is promising, yet how to rigorously evaluate such systems remains unclear. Existing benchmarks mainly focus on single-document understanding, whereas real scientific workflows require integrating evidence from multiple papers, including their text, tables, and figures. As a result, multi-modal, multi-document scientific reasoning remains underexplored and lacks systematic evaluation. To address this gap, we introduce PaperScope, a multi-modal multi-document benchmark designed for agentic deep research. PaperScope presents three advantages: (1) Structured scientific grounding. It is built on a knowledge graph of over 2,000 AI papers spanning three years, providing a structured foundation for research-oriented queries. (2) Semantically dense evidence construction. It integrates semantically related key information nodes and employs optimized random-walk article selector to sample thematically coherent paper sets, thereby ensuring adequate semantic density and task complexity. (3) Multi-task evaluation of scientific reasoning. It contains over 2,000 QA pairs across reasoning, retrieval, summarization, and problem solving, enabling evaluation of multi-step scientific reasoning. Experimental results show that even advanced systems such as OpenAI Deep Research and Tongyi Deep Research achieve limited scores on PaperScope, highlighting the difficulty of long-context retrieval and deep multi-source reasoning. PaperScope thus provides a rigorous benchmark alongside a scalable pipeline for constructing large-scale multi-modal, multi-source deep research datasets.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.