DEEPMED: 멀티홉 의료 검색 데이터 및 턴 제어 에이전트 기반 훈련 및 추론을 통한 의료 심층 연구 에이전트 구축
DEEPMED: Building a Medical DeepResearch Agent via Multi-hop Med-Search Data and Turn-Controlled Agentic Training & Inference
의료 추론 모델은 매개변수 기반 지식에 의존하기 때문에, 기억 손실 및 환각 현상에 취약합니다. DeepResearch (DR) 모델은 도구를 활용하여 검증 가능한 근거를 기반으로 하며, 일반적인 영역에서 뛰어난 성능을 보이지만, 의료 분야에 직접 적용했을 때 상대적으로 제한적인 성능 향상을 보입니다. 이는 작업의 특성과 도구 활용 확장에 따른 문제 때문입니다. 의료 질문은 지식 집약적인 임상 환경에서 근거 해석을 요구합니다. 일반적인 DR 모델은 정보를 검색할 수 있지만, 임상 맥락에 대한 추론 능력이 부족하여 "정보는 찾지만 활용하지 못하는" 경우가 발생하며, 이는 의료 분야에서의 성능을 제한합니다. 또한, 의료 시나리오에서 도구 호출을 무분별하게 확장하면 노이즈가 섞인 맥락이 주입되어 민감한 의료 추론을 방해하고, 잘못된 경로를 따라 반복적인 근거 탐색을 유발할 수 있습니다. 따라서, 본 연구에서는 DeepMed를 제안합니다. 데이터 측면에서는 멀티홉 의료 검색 QA 합성 방법을 사용하여 모델이 의료 맥락에서 DR 패러다임을 적용할 수 있도록 지원합니다. 훈련 측면에서는 과도한 도구 호출을 억제하기 위해 난이도에 따른 페널티를 도입합니다. 추론 측면에서는 제한된 단계 내에서 가설을 검증하고 맥락 손실을 방지하기 위한 모니터링 기능을 추가합니다. 전반적으로, DeepMed는 7개의 의료 벤치마크에서 기준 모델보다 평균 9.79% 향상된 성능을 보이며, 더 크고 복잡한 의료 추론 및 DR 모델보다 우수한 성능을 나타냅니다.
Medical reasoning models remain constrained by parametric knowledge and are thus susceptible to forgetting and hallucinations. DeepResearch (DR) models ground outputs in verifiable evidence from tools and perform strongly in general domains, but their direct transfer to medical field yields relatively limited gains. We attribute this to two gaps: task characteristic and tool-use scaling. Medical questions require evidence interpretation in a knowledge-intensive clinical context; while general DR models can retrieve information, they often lack clinical-context reasoning and thus "find it but fail to use it," leaving performance limited by medical abilities. Moreover, in medical scenarios, blindly scaling tool-call can inject noisy context, derailing sensitive medical reasoning and prompting repetitive evidence-seeking along incorrect paths. Therefore, we propose DeepMed. For data, we deploy a multi-hop med-search QA synthesis method supporting the model to apply the DR paradigm in medical contexts. For training, we introduce a difficulty-aware turn-penalty to suppress excessive tool-call growth. For inference, we bring a monitor to help validate hypotheses within a controlled number of steps and avoid context rot. Overall, on seven medical benchmarks, DeepMed improves its base model by 9.79\% on average and outperforms larger medical reasoning and DR models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.