당신의 심층 연구 에이전트는 왜 실패하는가? 전체 연구 궤적에서의 환각 평가에 관하여
Why Your Deep Research Agent Fails? On Hallucination Evaluation in Full Research Trajectory
심층 연구 에이전트(DRA)의 실패 메커니즘을 진단하는 것은 여전히 중요한 과제로 남아 있다. 기존 벤치마크들은 주로 종단간(end-to-end) 평가에 의존하고 있어, 연구 궤적 전반에 걸쳐 누적되는 잘못된 계획 수립과 같은 중요한 중간 단계의 환각들을 가리고 있다. 이러한 격차를 해소하기 위해, 우리는 전체 연구 궤적을 감사(audit)함으로써 결과 중심 평가에서 과정 인식 평가로의 전환을 제안한다. 우리는 기능적 구성 요소(계획 대 요약)와 오류 속성(명시적 대 암묵적)에 따라 환각을 분류하기 위해 PIES 분류체계(Taxonomy)를 도입한다. 우리는 이 분류체계를 궤적을 분해하여 이러한 환각을 엄격하게 정량화하는 세분화된 평가 프레임워크로 구체화한다. 이 프레임워크를 활용하여 적대적 시나리오를 포함해 환각이 발생하기 쉬운 100개의 고유한 작업을 분리해냄으로써 DeepHalluBench를 구축했다. 6개의 최첨단 DRA에 대한 실험 결과, 어떤 시스템도 견고한 신뢰성을 달성하지 못했음이 밝혀졌다. 더 나아가, 우리의 진단 분석은 이러한 실패의 원인을 시스템적 결함, 구체적으로는 환각 전파 및 인지 편향으로 추적하여 향후 아키텍처 최적화를 이끌 기초적인 통찰력을 제공한다. 데이터와 코드는 https://github.com/yuhao-zhan/DeepHalluBench 에서 이용 가능하다.
Diagnosing the failure mechanisms of Deep Research Agents (DRAs) remains a critical challenge. Existing benchmarks predominantly rely on end-to-end evaluation, obscuring critical intermediate hallucinations, such as flawed planning, that accumulate throughout the research trajectory. To bridge this gap, we propose a shift from outcome-based to process-aware evaluation by auditing the full research trajectory. We introduce the PIES Taxonomy to categorize hallucinations along functional components (Planning vs. Summarization) and error properties (Explicit vs. Implicit). We instantiate this taxonomy into a fine-grained evaluation framework that decomposes the trajectory to rigorously quantify these hallucinations. Leveraging this framework to isolate 100 distinctively hallucination-prone tasks including adversarial scenarios, we curate DeepHalluBench. Experiments on six state-of-theart DRAs reveal that no system achieves robust reliability. Furthermore, our diagnostic analysis traces the etiology of these failures to systemic deficits, specifically hallucination propagation and cognitive biases, providing foundational insights to guide future architectural optimization. Data and code are available at https://github.com/yuhao-zhan/DeepHalluBench.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.