단일 회차 작성을 넘어: 딥 리서치 에이전트는 다단계 보고서 수정 작업에서 신뢰성이 낮음
Beyond Single-shot Writing: Deep Research Agents are Unreliable at Multi-turn Report Revision
기존의 딥 리서치 에이전트(DRA) 벤치마크는 보고서 생성을 단일 회차 작제 과제로 취급하는데, 이는 인간 연구자들이 자기 성찰 또는 동료 피드백을 통해 보고서를 반복적으로 초안 작성하고 수정하는 방식과는 근본적으로 다릅니다. DRA가 사용자 피드백을 통해 보고서를 신뢰성 있게 수정할 수 있는지 여부는 아직 탐구되지 않았습니다. 본 연구에서는 다단계 보고서 수정을 DRA 평가의 새로운 축으로 확립하는 평가 도구인 Mr Dre를 소개합니다. Mr Dre는 (1) 포괄성, 사실성, 프레젠테이션을 아우르는 통합된 장문 보고서 평가 프로토콜과 (2) 다단계 수정을 위한 인간 검증 피드백 시뮬레이션 파이프라인으로 구성됩니다. 다섯 가지 다양한 DRA에 대한 분석 결과, 중요한 한계점이 드러났습니다. DRA는 대부분의 사용자 피드백에 대응할 수 있지만, 이전에 다룬 내용의 16~27%에 대해 오류를 발생시키거나 인용 품질이 저하되는 현상이 나타났습니다. 여러 번의 수정 과정을 거치면서, 가장 성능이 좋은 DRA조차도 여전히 개선의 여지가 많으며, 피드백의 범위를 벗어난 내용에 대한 오류를 계속 발생시키고, 이전 수정 사항을 유지하지 못하는 문제가 있습니다. 또한, 프롬프트 엔지니어링과 같은 추론 시간 수정이나 보고서 수정 전용 하위 에이전트를 활용하는 것만으로는 이러한 문제를 쉽게 해결할 수 없음을 보여줍니다.
Existing benchmarks for Deep Research Agents (DRAs) treat report generation as a single-shot writing task, which fundamentally diverges from how human researchers iteratively draft and revise reports via self-reflection or peer feedback. Whether DRAs can reliably revise reports with user feedback remains unexplored. We introduce Mr Dre, an evaluation suite that establishes multi-turn report revision as a new evaluation axis for DRAs. Mr Dre consists of (1) a unified long-form report evaluation protocol spanning comprehensiveness, factuality, and presentation, and (2) a human-verified feedback simulation pipeline for multi-turn revision. Our analysis of five diverse DRAs reveals a critical limitation: while agents can address most user feedback, they also regress on 16-27% of previously covered content and citation quality. Over multiple revision turns, even the best-performing agents leave significant headroom, as they continue to disrupt content outside the feedback's scope and fail to preserve earlier edits. We further show that these issues are not easily resolvable through inference-time fixes such as prompt engineering and a dedicated sub-agent for report revision.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.