2602.23271v1 Feb 26, 2026 cs.AI

심층 연구 에이전트의 불확실성 평가

Evaluating Stochasticity in Deep Research Agents

Elias Stengel-Eskin
Elias Stengel-Eskin
Citations: 891
h-index: 17
Haotian Zhai
Haotian Zhai
Citations: 10
h-index: 2
Pratik Patil
Pratik Patil
Citations: 20
h-index: 2
Liu Leqi
Liu Leqi
Citations: 495
h-index: 12

심층 연구 에이전트(DRA)는 금융 의사 결정, 의료 분석 및 과학적 발견과 같은 다양한 분야에서 연구를 지원하기 위해 정보를 수집하고 종합하는 유망한 에이전트 시스템입니다. 최근 연구 품질이 향상되었지만(예: 정답이 주어졌을 때 결과 정확도), DRA 시스템 설계는 실제 적용에 있어 중요한 장애물인 불확실성을 종종 간과합니다. 동일한 질의에 대해 DRA를 반복적으로 실행하면 연구 결과, 결과 및 인용 건수에서 상당한 변동성을 나타낼 수 있습니다. 본 논문에서는 정보를 획득하는 마르코프 결정 프로세스로 DRA를 모델링하여 DRA의 불확실성을 체계적으로 연구합니다. 본 연구에서는 시스템의 변동성을 정량화하는 평가 프레임워크를 소개하고, 정보 획득, 정보 압축 및 추론의 세 가지 주요 불확실성 원인을 식별합니다. 통제된 실험을 통해 이러한 모듈에서 발생하는 불확실성이 다양한 의사 결정 단계에서 DRA 출력의 변동성에 미치는 영향을 조사합니다. 연구 결과, 불확실성을 줄이면 연구 결과 품질을 향상시킬 수 있으며, 특히 추론 및 초기 단계의 불확실성이 DRA 출력 변동에 가장 큰 영향을 미치는 것으로 나타났습니다. 이러한 결과를 바탕으로 구조화된 출력 및 앙상블 기반 질의 생성 방식을 통해 불확실성을 완화하면서 출력 품질을 유지하는 전략을 제안합니다. DeepSearchQA에 대한 실험 결과, 제안된 완화 방법은 평균 불확실성을 22% 줄이는 동시에 높은 연구 품질을 유지하는 것으로 나타났습니다.

Original Abstract

Deep Research Agents (DRAs) are promising agentic systems that gather and synthesize information to support research across domains such as financial decision-making, medical analysis, and scientific discovery. Despite recent improvements in research quality (e.g., outcome accuracy when ground truth is available), DRA system design often overlooks a critical barrier to real-world deployment: stochasticity. Under identical queries, repeated executions of DRAs can exhibit substantial variability in terms of research outcome, findings, and citations. In this paper, we formalize the study of stochasticity in DRAs by modeling them as information acquisition Markov Decision Processes. We introduce an evaluation framework that quantifies variance in the system and identify three sources of it: information acquisition, information compression, and inference. Through controlled experiments, we investigate how stochasticity from these modules across different decision steps influences the variance of DRA outputs. Our results show that reducing stochasticity can improve research output quality, with inference and early-stage stochasticity contributing the most to DRA output variance. Based on these findings, we propose strategies for mitigating stochasticity while maintaining output quality via structured output and ensemble-based query generation. Our experiments on DeepSearchQA show that our proposed mitigation methods reduce average stochasticity by 22% while maintaining high research quality.

0 Citations
0 Influential
8.5 Altmetric
42.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!