EigentSearch-Q+: 구조화된 추론 도구를 활용하여 심층 연구 에이전트 성능 향상
EigentSearch-Q+: Enhancing Deep Research Agents with Structured Reasoning Tools
심층 연구는 웹 자료를 분석하여 개방형 질문에 답하는 능력을 필요로 하며, 이는 AI 에이전트의 핵심 역량입니다. 그러나 많은 심층 연구 에이전트는 여전히 암묵적이고 비정형적인 검색 방식을 사용하며, 이는 중복적인 탐색과 취약한 증거 집계를 초래합니다. Anthropic의 "think" 도구 패러다임과 정보 검색 분야의 통찰력을 바탕으로, 우리는 웹 검색을 보다 의도적으로 만들 수 있도록 쿼리 계획을 안내하고, 검색 진행 상황을 모니터링하며, 긴 웹 스냅샷에서 증거를 추출하는 쿼리 및 증거 처리 도구인 Q+를 소개합니다. 우리는 Q+를 컴퓨터 사용을 위한 오픈 소스, 실용적인 다중 에이전트 시스템인 Eigent의 브라우저 서브 에이전트에 통합하여 EigentSearch-Q+를 개발했습니다. SimpleQA-Verified, FRAMES, WebWalkerQA 및 X-Bench DeepSearch의 네 가지 벤치마크에서, Q+는 GPT-4.1, GPT-5.1 및 Minimax M2.5 모델 백엔드에서 Eigent의 브라우저 에이전트의 벤치마크 크기 가중 평균 정확도를 각각 3.0, 3.8 및 0.6%p만큼 향상시켰습니다. 추가 사례 연구에서 EigentSearch-Q+가 검색 진행 상황과 증거 처리를 명시적으로 만들어 더 일관된 도구 호출 경로를 생성한다는 것을 확인했습니다.
Deep research requires reasoning over web evidence to answer open-ended questions, and it is a core capability for AI agents. Yet many deep research agents still rely on implicit, unstructured search behavior that causes redundant exploration and brittle evidence aggregation. Motivated by Anthropic's "think" tool paradigm and insights from the information-retrieval literature, we introduce Q+, a set of query and evidence processing tools that make web search more deliberate by guiding query planning, monitoring search progress, and extracting evidence from long web snapshots. We integrate Q+ into the browser sub-agent of Eigent, an open-source, production-ready multi-agent workforce for computer use, yielding EigentSearch-Q+. Across four benchmarks (SimpleQA-Verified, FRAMES, WebWalkerQA, and X-Bench DeepSearch), Q+ improves Eigent's browser agent benchmark-size-weighted average accuracy by 3.0, 3.8, and 0.6 percentage points (pp) for GPT-4.1, GPT-5.1, and Minimax M2.5 model backends, respectively. Case studies further suggest that EigentSearch-Q+ produces more coherent tool-calling trajectories by making search progress and evidence handling explicit.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.