2604.25256v1 Apr 28, 2026 cs.AI

AutoResearchBench: 복잡한 과학 문헌 검색에서 AI 에이전트 성능 평가

AutoResearchBench: Benchmarking AI Agents on Complex Scientific Literature Discovery

Hao Li
Hao Li
Citations: 75
h-index: 5
Hongjin Qian
Hongjin Qian
Citations: 37
h-index: 3
Jing Shao
Jing Shao
Citations: 147
h-index: 3
C. Yue
C. Yue
Citations: 6
h-index: 1
Lei Xiong
Lei Xiong
Citations: 19
h-index: 3
Zhicheng Dou
Zhicheng Dou
Citations: 6
h-index: 1
Kun Luo
Kun Luo
Citations: 284
h-index: 2
Ziyi Xia
Ziyi Xia
Citations: 286
h-index: 2
Wenbo Zhang
Wenbo Zhang
Citations: 34
h-index: 4
Jin-Ge Yao
Jin-Ge Yao
Citations: 4
h-index: 1
Xia'an Du
Xia'an Du
Citations: 0
h-index: 0
Haiyu Xu
Haiyu Xu
Citations: 1
h-index: 1
Zheng Liu
Zheng Liu
Citations: 34
h-index: 1
Jianlyu Chen
Jianlyu Chen
Citations: 132
h-index: 5
X. Yang
X. Yang
Citations: 0
h-index: 0
Qian Yu
Qian Yu
Citations: 2
h-index: 1
Yuyang Wang
Yuyang Wang
Citations: 7
h-index: 1
Yesheng Liu
Yesheng Liu
Citations: 6
h-index: 1

인공지능 에이전트의 발전은 자율적인 과학 연구를 크게 발전시키고 있습니다. 이 과정에서 중요한 단계는 연구 문제에 대한 기존 지식 탐색 또는 가설 검증 및 주장을 뒷받침할 증거 획득을 위해 적절한 과학 문헌을 찾는 것입니다. 이러한 과정에서 AI 에이전트의 능력을 평가하기 위해, 자율적인 과학 문헌 검색을 위한 특화된 벤치마크인 AutoResearchBench를 제시합니다. AutoResearchBench는 두 가지 상호 보완적인 작업 유형으로 구성됩니다. (1) Deep Research는 점진적이고 다단계적인 탐색 과정을 통해 특정 대상 논문을 찾는 것을 요구하며, (2) Wide Research는 주어진 조건을 만족하는 논문 집합을 포괄적으로 수집하는 것을 요구합니다. AutoResearchBench는 이전의 에이전트 기반 웹 브라우징 벤치마크와 비교하여 다음과 같은 세 가지 측면에서 차별화됩니다. 첫째, 연구 지향적이며 과학적 개념에 대한 심층적인 이해를 요구합니다. 둘째, 문헌 중심적이며 상세한 정보의 정밀한 활용을 요구합니다. 셋째, 개방형으로, 자격 요건을 충족하는 논문의 수가 알려져 있지 않으므로 신중한 추론과 검색이 필요합니다. 이러한 특성 때문에 AutoResearchBench는 자율적인 연구 능력을 평가하는 데 독특하고 매우 적합하며, 동시에 매우 도전적인 과제입니다. BrowseComp과 같은 일반적인 에이전트 기반 웹 브라우징 벤치마크를 상당 부분 극복한 가장 강력한 LLM조차도 Deep Research에서 9.39%의 정확도, Wide Research에서 9.31%의 IoU를 달성하는 데 그치며, 많은 다른 강력한 기준 모델들은 5% 미만의 성능을 보입니다. 본 연구에서는 데이터셋과 평가 파이프라인을 공개하여 이 분야의 향후 연구를 지원하고자 합니다. 데이터셋, 평가 파이프라인 및 코드는 https://github.com/CherYou/AutoResearchBench에서 공개됩니다.

Original Abstract

Autonomous scientific research is significantly advanced thanks to the development of AI agents. One key step in this process is finding the right scientific literature, whether to explore existing knowledge for a research problem, or to acquire evidence for verifying assumptions and supporting claims. To assess AI agents' capability in driving this process, we present AutoResearchBench, a dedicated benchmark for autonomous scientific literature discovery. AutoResearchBench consists of two complementary task types: (1) Deep Research, which requires tracking down a specific target paper through a progressive, multi-step probing process, and (2) Wide Research, which requires comprehensively collecting a set of papers satisfying given conditions. Compared to previous benchmarks on agentic web browsing, AutoResearchBench is distinguished along three dimensions: it is research-oriented, calling for in-depth comprehension of scientific concepts; literature-focused, demanding fine-grained utilization of detailed information; and open-ended, involving an unknown number of qualified papers and thus requiring deliberate reasoning and search throughout. These properties make AutoResearchBench uniquely suited for evaluating autonomous research capabilities, and extraordinarily challenging. Even the most powerful LLMs, despite having largely conquered general agentic web-browsing benchmarks such as BrowseComp, achieve only 9.39% accuracy on Deep Research and 9.31% IoU on Wide Research, while many other strong baselines fall below 5%. We publicly release the dataset and evaluation pipeline to facilitate future research in this direction. We publicly release the dataset, evaluation pipeline, and code at https://github.com/CherYou/AutoResearchBench.

0 Citations
0 Influential
39.336479149932 Altmetric
196.7 Score
Original PDF
28

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!