2601.18496v2 Jan 26, 2026 cs.AI

DEEPMED: 멀티홉 의료 검색 데이터 및 턴 제어 에이전트 기반 훈련 및 추론을 통한 의료 심층 연구 에이전트 구축

DEEPMED: Building a Medical DeepResearch Agent via Multi-hop Med-Search Data and Turn-Controlled Agentic Training & Inference

Zihan Wang
Zihan Wang
Citations: 224
h-index: 3
Hao Wang
Hao Wang
Citations: 0
h-index: 0
Shi Feng
Shi Feng
Citations: 67
h-index: 5
Xiaocui Yang
Xiaocui Yang
Citations: 682
h-index: 12
Daling Wang
Daling Wang
Citations: 2,384
h-index: 24
Yiqun Zhang
Yiqun Zhang
Citations: 151
h-index: 7
Jinghao Lin
Jinghao Lin
Citations: 251
h-index: 3
Haihua Yang
Haihua Yang
Citations: 2
h-index: 1
Xiaozhong Ji
Xiaozhong Ji
Citations: 0
h-index: 0

의료 추론 모델은 매개변수 기반 지식에 의존하기 때문에, 기억 손실 및 환각 현상에 취약합니다. DeepResearch (DR) 모델은 도구를 활용하여 검증 가능한 근거를 기반으로 하며, 일반적인 영역에서 뛰어난 성능을 보이지만, 의료 분야에 직접 적용했을 때 상대적으로 제한적인 성능 향상을 보입니다. 이는 작업의 특성과 도구 활용 확장에 따른 문제 때문입니다. 의료 질문은 지식 집약적인 임상 환경에서 근거 해석을 요구합니다. 일반적인 DR 모델은 정보를 검색할 수 있지만, 임상 맥락에 대한 추론 능력이 부족하여 "정보는 찾지만 활용하지 못하는" 경우가 발생하며, 이는 의료 분야에서의 성능을 제한합니다. 또한, 의료 시나리오에서 도구 호출을 무분별하게 확장하면 노이즈가 섞인 맥락이 주입되어 민감한 의료 추론을 방해하고, 잘못된 경로를 따라 반복적인 근거 탐색을 유발할 수 있습니다. 따라서, 본 연구에서는 DeepMed를 제안합니다. 데이터 측면에서는 멀티홉 의료 검색 QA 합성 방법을 사용하여 모델이 의료 맥락에서 DR 패러다임을 적용할 수 있도록 지원합니다. 훈련 측면에서는 과도한 도구 호출을 억제하기 위해 난이도에 따른 페널티를 도입합니다. 추론 측면에서는 제한된 단계 내에서 가설을 검증하고 맥락 손실을 방지하기 위한 모니터링 기능을 추가합니다. 전반적으로, DeepMed는 7개의 의료 벤치마크에서 기준 모델보다 평균 9.79% 향상된 성능을 보이며, 더 크고 복잡한 의료 추론 및 DR 모델보다 우수한 성능을 나타냅니다.

Original Abstract

Medical reasoning models remain constrained by parametric knowledge and are thus susceptible to forgetting and hallucinations. DeepResearch (DR) models ground outputs in verifiable evidence from tools and perform strongly in general domains, but their direct transfer to medical field yields relatively limited gains. We attribute this to two gaps: task characteristic and tool-use scaling. Medical questions require evidence interpretation in a knowledge-intensive clinical context; while general DR models can retrieve information, they often lack clinical-context reasoning and thus "find it but fail to use it," leaving performance limited by medical abilities. Moreover, in medical scenarios, blindly scaling tool-call can inject noisy context, derailing sensitive medical reasoning and prompting repetitive evidence-seeking along incorrect paths. Therefore, we propose DeepMed. For data, we deploy a multi-hop med-search QA synthesis method supporting the model to apply the DR paradigm in medical contexts. For training, we introduce a difficulty-aware turn-penalty to suppress excessive tool-call growth. For inference, we bring a monitor to help validate hypotheses within a controlled number of steps and avoid context rot. Overall, on seven medical benchmarks, DeepMed improves its base model by 9.79\% on average and outperforms larger medical reasoning and DR models.

0 Citations
0 Influential
12 Altmetric
60.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!