W&D: 효율적인 심층 연구 에이전트를 위한 병렬 도구 호출 확장
W&D:Scaling Parallel Tool Calling for Efficient Deep Research Agents
심층 연구 에이전트는 다단계 추론과 웹 기반 정보 검색을 통해 복잡한 지적 작업을 자동화하는 강력한 도구로 부상했습니다. 최근의 연구들은 순차적인 사고와 도구 호출 수를 늘려 '깊이(depth)'를 확장함으로써 에이전트 성능을 향상시켰지만, 병렬 도구 호출을 통한 '너비(width)' 확장의 잠재력은 아직 충분히 탐구되지 않았습니다. 본 논문에서는 깊이뿐만 아니라 병렬 도구 호출을 통해 너비를 확장했을 때의 에이전트 동작과 성능을 조사하기 위한 프레임워크인 'Wide and Deep' 연구 에이전트를 제안합니다. 워크로드를 병렬화하기 위해 복잡한 다중 에이전트 오케스트레이션에 의존하는 기존 방식과 달리, 본 연구의 방법은 내재된 병렬 도구 호출 기능을 활용하여 단일 추론 단계 내에서 효과적인 조정을 가능하게 합니다. 실험 결과, 너비를 확장하는 것이 심층 연구 벤치마크 성능을 크게 향상시키면서도 정답 도출에 필요한 턴 수를 줄인다는 것을 입증했습니다. 더 나아가 사례 연구를 통해 성능 향상의 원인을 분석하고, 병렬 도구 호출 전략을 최적화하기 위한 다양한 스케줄러를 탐색합니다. 본 연구 결과는 너비와 깊이 사이의 균형을 최적화하는 것이 고효율 심층 연구 에이전트 개발의 핵심 경로임을 시사합니다. 특히 별도의 컨텍스트 관리나 기법 없이도 BrowseComp 벤치마크에서 GPT-5-Medium 모델로 62.2%의 정확도를 달성하여, GPT-5-High 모델이 기록한 기존 54.9%를 능가하는 성과를 거두었습니다.
Deep research agents have emerged as powerful tools for automating complex intellectual tasks through multi-step reasoning and web-based information seeking. While recent efforts have successfully enhanced these agents by scaling depth through increasing the number of sequential thinking and tool calls, the potential of scaling width via parallel tool calling remains largely unexplored. In this work, we propose the Wide and Deep research agent, a framework designed to investigate the behavior and performance of agents when scaling not only depth but also width via parallel tool calling. Unlike existing approaches that rely on complex multi-agent orchestration to parallelize workloads, our method leverages intrinsic parallel tool calling to facilitate effective coordination within a single reasoning step. We demonstrate that scaling width significantly improves performance on deep research benchmarks while reducing the number of turns required to obtain correct answers. Furthermore, we analyze the factors driving these improvements through case studies and explore various tool call schedulers to optimize parallel tool calling strategy. Our findings suggest that optimizing the trade-off between width and depth is a critical pathway toward high-efficiency deep research agents. Notably, without context management or other tricks, we obtain 62.2% accuracy with GPT-5-Medium on BrowseComp, surpassing the original 54.9% reported by GPT-5-High.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.