2602.13332v1 Feb 11, 2026 cs.CV

MedScope: 영상 기반 임상 추론을 위한 "영상과 함께 사고하기" 유도: 거친-세밀 도구 호출을 통한 접근

MedScope: Incentivizing "Think with Videos" for Clinical Reasoning via Coarse-to-Fine Tool Calling

Hongcheng Gao
Hongcheng Gao
Citations: 54
h-index: 3
Haoran Sun
Haoran Sun
Citations: 47
h-index: 3
Hongliang Ren
Hongliang Ren
Citations: 74
h-index: 4
Wenjie Li
Wenjie Li
Citations: 8
h-index: 1
Yujie Zhang
Yujie Zhang
Citations: 1
h-index: 1
Xingqi He
Xingqi He
Citations: 0
h-index: 0
Chenglong Ma
Chenglong Ma
Citations: 122
h-index: 5
Ming Hu
Ming Hu
Citations: 199
h-index: 8
Guan-Feng Wang
Guan-Feng Wang
Citations: 172
h-index: 7
Renhao Yang
Renhao Yang
Citations: 602
h-index: 9
Lei Wang
Lei Wang
Citations: 1
h-index: 1
Junjun He
Junjun He
Citations: 29
h-index: 3
Yankai Jiang
Yankai Jiang
Citations: 3
h-index: 1
Shiyi Yao
Shiyi Yao
Citations: 22
h-index: 2

장시간의 임상 영상은 시각적 증거 기반 의사 결정에 핵심적인 역할을 하며, 수술 로봇 및 관련 분야에서 그 중요성이 점점 커지고 있습니다. 그러나 현재의 다중 모달 대규모 언어 모델은 일반적으로 수동 샘플링 또는 약하게 연결된 검사를 통해 영상을 처리하여, 시간적으로 특정된 증거를 통해 예측을 반복적으로 찾고, 검증하고, 정당화하는 능력을 제한합니다. 이러한 격차를 해소하기 위해, 우리는 MedScope를 제안합니다. MedScope는 장시간 절차에 대한 거친-세밀 증거 탐색을 수행하는 도구 사용형 임상 영상 추론 모델입니다. MedScope는 중간 추론과 함께 대상 도구 호출 및 검색된 관찰에 대한 검증을 수행함으로써, 시간적으로 위치가 특정된 시각적 증거에 명시적으로 기반한 보다 정확하고 신뢰할 수 있는 예측을 생성합니다. 고품질의 지도 학습 데이터 부족 문제를 해결하기 위해, 우리는 증거 중심의 세밀한 임상 영상 데이터셋인 ClinVideoSuite를 구축했습니다. 그런 다음, 우리는 MedScope를 Grounding-Aware Group Relative Policy Optimization (GA-GRPO)를 사용하여 최적화했습니다. GA-GRPO는 도구 사용을 위치 정보에 맞춰 조정된 보상과 증거 가중치 기반의 이점을 통해 직접 강화합니다. MedScope는 전체 및 세밀한 영상 이해 벤치마크에서 인-도메인 및 아웃-오브-도메인 평가 모두에서 최첨단 성능을 달성합니다. 우리의 접근 방식은 도구 통합 추론을 통해 진정으로 "영상과 함께 사고하기"가 가능한 의료 AI 에이전트에 대한 방법을 제시합니다. 우리는 우리의 코드, 모델 및 데이터를 공개할 예정입니다.

Original Abstract

Long-form clinical videos are central to visual evidence-based decision-making, with growing importance for applications such as surgical robotics and related settings. However, current multimodal large language models typically process videos with passive sampling or weakly grounded inspection, which limits their ability to iteratively locate, verify, and justify predictions with temporally targeted evidence. To close this gap, we propose MedScope, a tool-using clinical video reasoning model that performs coarse-to-fine evidence seeking over long-form procedures. By interleaving intermediate reasoning with targeted tool calls and verification on retrieved observations, MedScope produces more accurate and trustworthy predictions that are explicitly grounded in temporally localized visual evidence. To address the lack of high-fidelity supervision, we build ClinVideoSuite, an evidence-centric, fine-grained clinical video suite. We then optimize MedScope with Grounding-Aware Group Relative Policy Optimization (GA-GRPO), which directly reinforces tool use with grounding-aligned rewards and evidence-weighted advantages. On full and fine-grained video understanding benchmarks, MedScope achieves state-of-the-art performance in both in-domain and out-of-domain evaluations. Our approach illuminates a path toward medical AI agents that can genuinely "think with videos" through tool-integrated reasoning. We will release our code, models, and data.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!