Marco DeepResearch: 검증 중심 설계 기반의 효율적인 심층 연구 에이전트 구현
Marco DeepResearch: Unlocking Efficient Deep Research Agents via Verification-Centric Design
심층 연구 에이전트는 자율적으로 광범위한 조사를 수행하며, 다양한 소스에 걸쳐 복잡한 정보 검색과 다단계 추론을 통합하여 실제 문제를 해결합니다. 이러한 능력을 장기적인 작업에서 유지하기 위해서는 학습 및 추론 과정 모두에서 신뢰할 수 있는 검증이 매우 중요합니다. 기존 패러다임의 주요 병목 현상은 QA 데이터 생성, 경로 구성 및 테스트 시간 확장 과정에서 명시적인 검증 메커니즘이 부족하다는 점입니다. 각 단계에서 발생하는 오류는 하류 단계로 전파되어 전체 에이전트 성능을 저하시킵니다. 이를 해결하기 위해, 우리는 검증 중심 프레임워크 설계를 세 가지 수준에서 최적화한 심층 연구 에이전트인 Marco DeepResearch를 제시합니다. extbf{(1) QA 데이터 생성:} 그래프 기반 및 에이전트 기반 QA 생성에 검증 메커니즘을 도입하여 질문 난이도를 제어하면서 답변이 고유하고 정확하도록 보장합니다. extbf{(2) 경로 구성:} 명시적인 검증 패턴을 학습 경로에 주입하는 검증 중심 경로 생성 방법을 설계합니다. extbf{(3) 테스트 시간 확장:} Marco DeepResearch 자체를 추론 시 검증기로 사용하여 어려운 질문에 대한 성능을 효과적으로 향상시킵니다. 광범위한 실험 결과는 제안된 Marco DeepResearch 에이전트가 BrowseComp 및 BrowseComp-ZH와 같은 가장 어려운 벤치마크에서 80억 규모의 심층 연구 에이전트를 크게 능가한다는 것을 보여줍니다. 더욱 중요한 것은, 최대 600번의 도구 호출 예산 하에서, Marco DeepResearch는 Tongyi DeepResearch-30B와 같은 300억 규모의 에이전트를 능가하거나 거의 근접하는 성능을 보입니다.
Deep research agents autonomously conduct open-ended investigations, integrating complex information retrieval with multi-step reasoning across diverse sources to solve real-world problems. To sustain this capability on long-horizon tasks, reliable verification is critical during both training and inference. A major bottleneck in existing paradigms stems from the lack of explicit verification mechanisms in QA data synthesis, trajectory construction, and test-time scaling. Errors introduced at each stage propagate downstream and degrade the overall agent performance. To address this, we present Marco DeepResearch, a deep research agent optimized with a verification-centric framework design at three levels: \textbf{(1)~QA Data Synthesis:} We introduce verification mechanisms to graph-based and agent-based QA synthesis to control question difficulty while ensuring answers are unique and correct; \textbf{(2)~Trajectory Construction:} We design a verification-driven trajectory synthesis method that injects explicit verification patterns into training trajectories; and \textbf{(3)~Test-time scaling:} We use Marco DeepResearch itself as a verifier at inference time and effectively improve performance on challenging questions. Extensive experimental results demonstrate that our proposed Marco DeepResearch agent significantly outperforms 8B-scale deep research agents on most challenging benchmarks, such as BrowseComp and BrowseComp-ZH. Crucially, under a maximum budget of 600 tool calls, Marco DeepResearch even surpasses or approaches several 30B-scale agents, like Tongyi DeepResearch-30B.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.