2604.12867v1 Apr 14, 2026 cs.AI

QuarkMedSearch: 의료 지능 탐색을 위한 장기 예측 기반의 심층 검색 에이전트

QuarkMedSearch: A Long-Horizon Deep Search Agent for Exploring Medical Intelligence

Zhichao Liang
Zhichao Liang
Citations: 34
h-index: 3
Shuxin Zhao
Shuxin Zhao
Citations: 4
h-index: 1
Jian Xu
Jian Xu
Citations: 56
h-index: 2
Zhichao Lin
Zhichao Lin
Citations: 106
h-index: 5
Gaoqiang Liu
Gaoqiang Liu
Citations: 35
h-index: 3
Mengwei Xu
Mengwei Xu
Citations: 30
h-index: 2
B. Xiang
B. Xiang
Citations: 78
h-index: 4
Yaoyu Wu
Yaoyu Wu
Citations: 37
h-index: 1
Guan-cheng Jiang
Guan-cheng Jiang
Citations: 43
h-index: 4

에이전트 기반의 기초 모델이 지속적으로 발전함에 따라, 특정 분야에서의 성능을 더욱 향상시키는 것이 중요한 과제로 떠오르고 있습니다. 이에, 강력한 에이전트 기반 모델인 Tongyi DeepResearch를 기반으로, 중국 의료 분야의 심층 검색 시나리오에 초점을 맞춰 QuarkMedSearch를 제안합니다. QuarkMedSearch는 의료 분야의 다중 정보 연계 데이터 구축, 학습 전략, 평가 벤치마크를 포괄하는 전반적인 접근 방식을 체계적으로 활용하여, 특정 분야에서의 성능 한계를 극복하고 평가하고자 합니다. 구체적으로, 데이터 생성 단계에서는 의료 분야의 심층 검색 학습 데이터 부족 문제를 해결하기 위해, 대규모 의료 지식 그래프와 실시간 온라인 탐색을 결합하여 장기 예측 기반의 의료 심층 검색 학습 데이터를 구축합니다. 학습 후 단계에서는 모델의 계획 수립, 도구 활용, 그리고 심층 검색에 필요한 반사 능력 향상을 점진적으로 개선하는 이원적인 SFT 및 RL 학습 전략을 채택하면서도 검색 효율성을 유지합니다. 평가 단계에서는 의료 전문가와 협력하여 엄격한 수동 검증을 통해 QuarkMedSearch 벤치마크를 구축했습니다. 실험 결과, QuarkMedSearch는 QuarkMedSearch 벤치마크에서 유사한 규모의 공개 소스 모델 중 최고 수준의 성능을 달성했으며, 일반 벤치마크에서도 강력한 경쟁력을 유지하는 것으로 나타났습니다.

Original Abstract

As agentic foundation models continue to evolve, how to further improve their performance in vertical domains has become an important challenge. To this end, building upon Tongyi DeepResearch, a powerful agentic foundation model, we focus on the Chinese medical deep search scenario and propose QuarkMedSearch, systematically exploring a full-pipeline approach spanning medical multi-hop data construction, training strategies, and evaluation benchmarks to further push and assess its performance upper bound in vertical domains. Specifically, for data synthesis, to address the scarcity of deep search training data in the medical domain, we combine a large-scale medical knowledge graph with real-time online exploration to construct long-horizon medical deep search training data; for post-training, we adopt a two-stage SFT and RL training strategy that progressively enhances the model's planning, tool invocation, and reflection capabilities required for deep search, while maintaining search efficiency; for evaluation, we collaborate with medical experts to construct the QuarkMedSearch Benchmark through rigorous manual verification. Experimental results demonstrate that QuarkMedSearch achieves state-of-the-art performance among open-source models of comparable scale on the QuarkMedSearch Benchmark, while also maintaining strong competitiveness on general benchmarks.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!