DR³-Eval: 현실적이고 재현 가능한 딥 러닝 연구 평가를 향하여
DR$^{3}$-Eval: Towards Realistic and Reproducible Deep Research Evaluation
딥 리서치 에이전트(DRA)는 계획, 검색, 다중 모드 이해, 보고서 생성 등 복잡하고 장기적인 연구 과제를 해결하는 것을 목표로 하지만, 동적인 웹 환경과 모호한 작업 정의로 인해 평가가 여전히 어렵습니다. 본 논문에서는 다중 모드, 다중 파일 보고서 생성을 위한 딥 리서치 에이전트를 평가하기 위한 현실적이고 재현 가능한 벤치마크인 DR³-Eval을 제안합니다. DR³-Eval은 실제 사용자가 제공한 자료로 구성되었으며, 각 작업에 대해 정적 연구 샌드박스 코퍼스를 함께 제공합니다. 이 샌드박스 코퍼스는 오픈 웹의 복잡성을 시뮬레이션하면서도 완전한 검증이 가능하며, 관련 문서, 주의를 분산시키는 요소, 노이즈를 포함합니다. 또한, 정보 검색률, 사실 정확도, 인용 범위, 지시사항 준수, 심층성 품질을 측정하는 다차원 평가 프레임워크를 도입하고, 이 프레임워크가 인간 판단과 얼마나 일치하는지 검증합니다. 최첨단 언어 모델을 기반으로 개발된 다중 에이전트 시스템인 DR³-Agent를 사용하여 수행한 실험 결과, DR³-Eval은 매우 어렵다는 것을 보여주며, 검색의 견고성 및 환각 제어 측면에서 중요한 문제점을 드러냅니다. 저희의 코드와 데이터는 공개적으로 제공됩니다.
Deep Research Agents (DRAs) aim to solve complex, long-horizon research tasks involving planning, retrieval, multimodal understanding, and report generation, yet their evaluation remains challenging due to dynamic web environments and ambiguous task definitions. We propose DR$^{3}$-Eval, a realistic and reproducible benchmark for evaluating deep research agents on multimodal, multi-file report generation. DR$^{3}$-Eval is constructed from authentic user-provided materials and paired with a per-task static research sandbox corpus that simulates open-web complexity while remaining fully verifiable, containing supportive documents, distractors, and noise. Moreover, we introduce a multi-dimensional evaluation framework measuring Information Recall, Factual Accuracy, Citation Coverage, Instruction Following, and Depth Quality, and validate its alignment with human judgments. Experiments with our developed multi-agent system DR$^{3}$-Agent based on multiple state-of-the-art language models demonstrate that DR$^{3}$-Eval is highly challenging and reveals critical failure modes in retrieval robustness and hallucination control. Our code and data are publicly available.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.