2601.22984v1 Jan 30, 2026 cs.AI

당신의 심층 연구 에이전트는 왜 실패하는가? 전체 연구 궤적에서의 환각 평가에 관하여

Why Your Deep Research Agent Fails? On Hallucination Evaluation in Full Research Trajectory

Tianyu Fan
Tianyu Fan
Citations: 98
h-index: 4
Yuhao Zhan
Yuhao Zhan
Citations: 0
h-index: 0
Zirui Guo
Zirui Guo
Citations: 37
h-index: 2
Linxuan Huang
Linxuan Huang
Citations: 21
h-index: 2
Chao Huang
Chao Huang
Citations: 359
h-index: 6

심층 연구 에이전트(DRA)의 실패 메커니즘을 진단하는 것은 여전히 중요한 과제로 남아 있다. 기존 벤치마크들은 주로 종단간(end-to-end) 평가에 의존하고 있어, 연구 궤적 전반에 걸쳐 누적되는 잘못된 계획 수립과 같은 중요한 중간 단계의 환각들을 가리고 있다. 이러한 격차를 해소하기 위해, 우리는 전체 연구 궤적을 감사(audit)함으로써 결과 중심 평가에서 과정 인식 평가로의 전환을 제안한다. 우리는 기능적 구성 요소(계획 대 요약)와 오류 속성(명시적 대 암묵적)에 따라 환각을 분류하기 위해 PIES 분류체계(Taxonomy)를 도입한다. 우리는 이 분류체계를 궤적을 분해하여 이러한 환각을 엄격하게 정량화하는 세분화된 평가 프레임워크로 구체화한다. 이 프레임워크를 활용하여 적대적 시나리오를 포함해 환각이 발생하기 쉬운 100개의 고유한 작업을 분리해냄으로써 DeepHalluBench를 구축했다. 6개의 최첨단 DRA에 대한 실험 결과, 어떤 시스템도 견고한 신뢰성을 달성하지 못했음이 밝혀졌다. 더 나아가, 우리의 진단 분석은 이러한 실패의 원인을 시스템적 결함, 구체적으로는 환각 전파 및 인지 편향으로 추적하여 향후 아키텍처 최적화를 이끌 기초적인 통찰력을 제공한다. 데이터와 코드는 https://github.com/yuhao-zhan/DeepHalluBench 에서 이용 가능하다.

Original Abstract

Diagnosing the failure mechanisms of Deep Research Agents (DRAs) remains a critical challenge. Existing benchmarks predominantly rely on end-to-end evaluation, obscuring critical intermediate hallucinations, such as flawed planning, that accumulate throughout the research trajectory. To bridge this gap, we propose a shift from outcome-based to process-aware evaluation by auditing the full research trajectory. We introduce the PIES Taxonomy to categorize hallucinations along functional components (Planning vs. Summarization) and error properties (Explicit vs. Implicit). We instantiate this taxonomy into a fine-grained evaluation framework that decomposes the trajectory to rigorously quantify these hallucinations. Leveraging this framework to isolate 100 distinctively hallucination-prone tasks including adversarial scenarios, we curate DeepHalluBench. Experiments on six state-of-theart DRAs reveal that no system achieves robust reliability. Furthermore, our diagnostic analysis traces the etiology of these failures to systemic deficits, specifically hallucination propagation and cognitive biases, providing foundational insights to guide future architectural optimization. Data and code are available at https://github.com/yuhao-zhan/DeepHalluBench.

0 Citations
0 Influential
31.047189562171 Altmetric
155.2 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!