2603.28376v1 Mar 30, 2026 cs.CL

Marco DeepResearch: 검증 중심 설계 기반의 효율적인 심층 연구 에이전트 구현

Marco DeepResearch: Unlocking Efficient Deep Research Agents via Verification-Centric Design

Longyue Wang
Longyue Wang
Citations: 149
h-index: 6
Weihua Luo
Weihua Luo
Citations: 738
h-index: 13
Zhao Xu
Zhao Xu
Citations: 378
h-index: 8
Tian Lan
Tian Lan
Citations: 13
h-index: 2
Bin Zhu
Bin Zhu
Citations: 17
h-index: 2
Qianghuai Jia
Qianghuai Jia
Citations: 21
h-index: 2
Junyang Ren
Junyang Ren
Citations: 9
h-index: 1
Feng Gu
Feng Gu
Citations: 23
h-index: 3
Feihu Jiang
Feihu Jiang
Citations: 61
h-index: 5

심층 연구 에이전트는 자율적으로 광범위한 조사를 수행하며, 다양한 소스에 걸쳐 복잡한 정보 검색과 다단계 추론을 통합하여 실제 문제를 해결합니다. 이러한 능력을 장기적인 작업에서 유지하기 위해서는 학습 및 추론 과정 모두에서 신뢰할 수 있는 검증이 매우 중요합니다. 기존 패러다임의 주요 병목 현상은 QA 데이터 생성, 경로 구성 및 테스트 시간 확장 과정에서 명시적인 검증 메커니즘이 부족하다는 점입니다. 각 단계에서 발생하는 오류는 하류 단계로 전파되어 전체 에이전트 성능을 저하시킵니다. 이를 해결하기 위해, 우리는 검증 중심 프레임워크 설계를 세 가지 수준에서 최적화한 심층 연구 에이전트인 Marco DeepResearch를 제시합니다. extbf{(1) QA 데이터 생성:} 그래프 기반 및 에이전트 기반 QA 생성에 검증 메커니즘을 도입하여 질문 난이도를 제어하면서 답변이 고유하고 정확하도록 보장합니다. extbf{(2) 경로 구성:} 명시적인 검증 패턴을 학습 경로에 주입하는 검증 중심 경로 생성 방법을 설계합니다. extbf{(3) 테스트 시간 확장:} Marco DeepResearch 자체를 추론 시 검증기로 사용하여 어려운 질문에 대한 성능을 효과적으로 향상시킵니다. 광범위한 실험 결과는 제안된 Marco DeepResearch 에이전트가 BrowseComp 및 BrowseComp-ZH와 같은 가장 어려운 벤치마크에서 80억 규모의 심층 연구 에이전트를 크게 능가한다는 것을 보여줍니다. 더욱 중요한 것은, 최대 600번의 도구 호출 예산 하에서, Marco DeepResearch는 Tongyi DeepResearch-30B와 같은 300억 규모의 에이전트를 능가하거나 거의 근접하는 성능을 보입니다.

Original Abstract

Deep research agents autonomously conduct open-ended investigations, integrating complex information retrieval with multi-step reasoning across diverse sources to solve real-world problems. To sustain this capability on long-horizon tasks, reliable verification is critical during both training and inference. A major bottleneck in existing paradigms stems from the lack of explicit verification mechanisms in QA data synthesis, trajectory construction, and test-time scaling. Errors introduced at each stage propagate downstream and degrade the overall agent performance. To address this, we present Marco DeepResearch, a deep research agent optimized with a verification-centric framework design at three levels: \textbf{(1)~QA Data Synthesis:} We introduce verification mechanisms to graph-based and agent-based QA synthesis to control question difficulty while ensuring answers are unique and correct; \textbf{(2)~Trajectory Construction:} We design a verification-driven trajectory synthesis method that injects explicit verification patterns into training trajectories; and \textbf{(3)~Test-time scaling:} We use Marco DeepResearch itself as a verifier at inference time and effectively improve performance on challenging questions. Extensive experimental results demonstrate that our proposed Marco DeepResearch agent significantly outperforms 8B-scale deep research agents on most challenging benchmarks, such as BrowseComp and BrowseComp-ZH. Crucially, under a maximum budget of 600 tool calls, Marco DeepResearch even surpasses or approaches several 30B-scale agents, like Tongyi DeepResearch-30B.

1 Citations
0 Influential
6.5 Altmetric
33.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!