AutoResearchBench: 복잡한 과학 문헌 검색에서 AI 에이전트 성능 평가
AutoResearchBench: Benchmarking AI Agents on Complex Scientific Literature Discovery
인공지능 에이전트의 발전은 자율적인 과학 연구를 크게 발전시키고 있습니다. 이 과정에서 중요한 단계는 연구 문제에 대한 기존 지식 탐색 또는 가설 검증 및 주장을 뒷받침할 증거 획득을 위해 적절한 과학 문헌을 찾는 것입니다. 이러한 과정에서 AI 에이전트의 능력을 평가하기 위해, 자율적인 과학 문헌 검색을 위한 특화된 벤치마크인 AutoResearchBench를 제시합니다. AutoResearchBench는 두 가지 상호 보완적인 작업 유형으로 구성됩니다. (1) Deep Research는 점진적이고 다단계적인 탐색 과정을 통해 특정 대상 논문을 찾는 것을 요구하며, (2) Wide Research는 주어진 조건을 만족하는 논문 집합을 포괄적으로 수집하는 것을 요구합니다. AutoResearchBench는 이전의 에이전트 기반 웹 브라우징 벤치마크와 비교하여 다음과 같은 세 가지 측면에서 차별화됩니다. 첫째, 연구 지향적이며 과학적 개념에 대한 심층적인 이해를 요구합니다. 둘째, 문헌 중심적이며 상세한 정보의 정밀한 활용을 요구합니다. 셋째, 개방형으로, 자격 요건을 충족하는 논문의 수가 알려져 있지 않으므로 신중한 추론과 검색이 필요합니다. 이러한 특성 때문에 AutoResearchBench는 자율적인 연구 능력을 평가하는 데 독특하고 매우 적합하며, 동시에 매우 도전적인 과제입니다. BrowseComp과 같은 일반적인 에이전트 기반 웹 브라우징 벤치마크를 상당 부분 극복한 가장 강력한 LLM조차도 Deep Research에서 9.39%의 정확도, Wide Research에서 9.31%의 IoU를 달성하는 데 그치며, 많은 다른 강력한 기준 모델들은 5% 미만의 성능을 보입니다. 본 연구에서는 데이터셋과 평가 파이프라인을 공개하여 이 분야의 향후 연구를 지원하고자 합니다. 데이터셋, 평가 파이프라인 및 코드는 https://github.com/CherYou/AutoResearchBench에서 공개됩니다.
Autonomous scientific research is significantly advanced thanks to the development of AI agents. One key step in this process is finding the right scientific literature, whether to explore existing knowledge for a research problem, or to acquire evidence for verifying assumptions and supporting claims. To assess AI agents' capability in driving this process, we present AutoResearchBench, a dedicated benchmark for autonomous scientific literature discovery. AutoResearchBench consists of two complementary task types: (1) Deep Research, which requires tracking down a specific target paper through a progressive, multi-step probing process, and (2) Wide Research, which requires comprehensively collecting a set of papers satisfying given conditions. Compared to previous benchmarks on agentic web browsing, AutoResearchBench is distinguished along three dimensions: it is research-oriented, calling for in-depth comprehension of scientific concepts; literature-focused, demanding fine-grained utilization of detailed information; and open-ended, involving an unknown number of qualified papers and thus requiring deliberate reasoning and search throughout. These properties make AutoResearchBench uniquely suited for evaluating autonomous research capabilities, and extraordinarily challenging. Even the most powerful LLMs, despite having largely conquered general agentic web-browsing benchmarks such as BrowseComp, achieve only 9.39% accuracy on Deep Research and 9.31% IoU on Wide Research, while many other strong baselines fall below 5%. We publicly release the dataset and evaluation pipeline to facilitate future research in this direction. We publicly release the dataset, evaluation pipeline, and code at https://github.com/CherYou/AutoResearchBench.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.