ScholarGym: 학술 문헌 검색에서의 심층 연구 워크플로우 벤치마킹
ScholarGym: Benchmarking Deep Research Workflows on Academic Literature Retrieval
도구 증강 대형 언어 모델은 단일 턴 질의응답을 넘어, 복잡한 정보 요구를 해결하기 위해 쿼리를 반복적으로 계획하고 외부 도구를 호출하며 정보를 종합하는 심층 연구 워크플로우로 발전했습니다. 그러나 이러한 워크플로우를 평가하는 데는 근본적인 어려움이 있습니다. 라이브 API에 의존할 경우 시간적 변화, 속도 제한, 백엔드 상태 변화 등으로 인해 실행할 때마다 도구 호출 결과가 달라져 비결정성이 발생하기 때문입니다. 이러한 변동성은 재현성을 저해하고 시스템 간 비교를 무효화합니다. 이에 본 논문에서는 학술 문헌에 대한 심층 연구 워크플로우를 재현 가능하게 평가할 수 있는 시뮬레이션 환경인 ScholarGym을 제안합니다. 이 환경은 워크플로우 구성 요소를 쿼리 계획, 도구 호출, 관련성 평가로 분리하여 통제된 조건 하에서 각 단계를 정밀하게 분석할 수 있게 합니다. 결정론적 검색이 가능한 57만 건의 논문으로 구성된 정적 코퍼스를 기반으로 구축된 ScholarGym은 전문가가 주석을 단 정답 데이터가 포함된 2,536개의 쿼리를 제공합니다. 다양한 백본 모델을 이용한 실험을 통해, 반복적인 개선 과정에서 추론 능력, 계획 전략, 선택 메커니즘이 어떻게 상호 작용하는지 규명합니다.
Tool-augmented large language models have advanced from single-turn question answering to deep research workflows that iteratively plan queries, invoke external tools, and synthesize information to address complex information needs. Evaluating such workflows presents a fundamental challenge: reliance on live APIs introduces non-determinism, as tool invocations may yield different results across runs due to temporal drift, rate limiting, and evolving backend states. This variance undermines reproducibility and invalidates cross-system comparisons. We present ScholarGym, a simulation environment for reproducible evaluation of deep research workflows on academic literature. The environment decouples workflow components into query planning, tool invocation, and relevance assessment, enabling fine-grained analysis of each stage under controlled conditions. Built on a static corpus of 570K papers with deterministic retrieval, ScholarGym provides 2,536 queries with expert-annotated ground truth. Experiments across diverse backbone models reveal how reasoning capabilities, planning strategies, and selection mechanisms interact over iterative refinement.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.