2603.01152v1 Mar 01, 2026 cs.AI

DeepResearch-9K: 심층 연구 에이전트를 위한 도전적인 벤치마크 데이터셋

DeepResearch-9K: A Challenging Benchmark Dataset of Deep-Research Agent

Tong Wu
Tong Wu
Citations: 229
h-index: 4
Shuaiqiang Wang
Shuaiqiang Wang
Citations: 2,130
h-index: 18
Xiangyu Zhao
Xiangyu Zhao
Citations: 2
h-index: 1
Xinyu Ma
Xinyu Ma
Citations: 354
h-index: 10
Xiuqiang He
Xiuqiang He
Citations: 244
h-index: 3
Dawei Yin
Dawei Yin
Citations: 32
h-index: 4
Yuhao Wang
Yuhao Wang
Citations: 334
h-index: 6

심층 연구 에이전트는 다단계 웹 탐색, 목표 기반 검색 및 정교한 질문 응답 기능을 수행할 수 있습니다. 그러나 이러한 강력한 기능에도 불구하고, 심층 연구 에이전트는 다음과 같은 두 가지 중요한 제약 조건을 안고 있습니다. (1) 현실적인 어려움을 반영하는 대규모의 도전적인 데이터셋 부족, (2) 데이터 생성 및 에이전트 훈련을 위한 접근 가능하고 개방적인 프레임워크 부재. 이러한 격차를 해소하기 위해, 우리는 먼저 개방형 멀티홉 질문 응답(QA) 데이터셋을 기반으로 저비용 자동화 파이프라인을 통해 구축된 대규모의 도전적인 데이터셋인 DeepResearch-9K를 구축했습니다. DeepResearch-9K는 (1) L1부터 L3까지 세 가지 난이도 수준의 9000개의 질문, (2) 최첨단 심층 연구 에이전트인 Tongyi-DeepResearch-30B-A3B에서 생성된 고품질의 검색 경로 및 추론 체인, (3) 검증 가능한 답변으로 구성됩니다. 또한, 우리는 (1) 다중 턴 웹 상호 작용, (2) 다양한 강화 학습(RL) 방법, (3) 규칙 기반 결과 보상 및 LLM 기반 평가 등 다양한 보상 모델을 지원하는 오픈 소스 훈련 프레임워크 DeepResearch-R1을 개발했습니다. 마지막으로, 실험 결과는 DeepResearch-R1을 사용하여 DeepResearch-9K에서 훈련된 에이전트가 어려운 심층 연구 벤치마크에서 최첨단 결과를 달성한다는 것을 보여줍니다. DeepResearch-9K 데이터셋은 https://huggingface.co/datasets/artillerywu/DeepResearch-9K에서, DeepResearch-R1 코드베이스는 https://github.com/Applied-Machine-Learning-Lab/DeepResearch-R1에서 확인할 수 있습니다.

Original Abstract

Deep-research agents are capable of executing multi-step web exploration, targeted retrieval, and sophisticated question answering. Despite their powerful capabilities, deep-research agents face two critical bottlenecks: (1) the lack of large-scale, challenging datasets with real-world difficulty, and (2) the absence of accessible, open-source frameworks for data synthesis and agent training. To bridge these gaps, we first construct DeepResearch-9K, a large-scale challenging dataset specifically designed for deep-research scenarios built from open-source multi-hop question-answering (QA) datasets via a low-cost autonomous pipeline. Notably, it consists of (1) 9000 questions spanning three difficulty levels from L1 to L3 (2) high-quality search trajectories with reasoning chains from Tongyi-DeepResearch-30B-A3B, a state-of-the-art deep-research agent, and (3) verifiable answers. Furthermore, we develop an open-source training framework DeepResearch-R1 that supports (1) multi-turn web interactions, (2) different reinforcement learning (RL) approaches, and (3) different reward models such as rule-based outcome reward and LLM-as-judge feedback. Finally, empirical results demonstrate that agents trained on DeepResearch-9K under our DeepResearch-R1 achieve state-of-the-art results on challenging deep-research benchmarks. We release the DeepResearch-9K dataset on https://huggingface.co/datasets/artillerywu/DeepResearch-9K and the code of DeepResearch-R1 on https://github.com/Applied-Machine-Learning-Lab/DeepResearch-R1.

0 Citations
0 Influential
29 Altmetric
145.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!