MedScope: 영상 기반 임상 추론을 위한 "영상과 함께 사고하기" 유도: 거친-세밀 도구 호출을 통한 접근
MedScope: Incentivizing "Think with Videos" for Clinical Reasoning via Coarse-to-Fine Tool Calling
장시간의 임상 영상은 시각적 증거 기반 의사 결정에 핵심적인 역할을 하며, 수술 로봇 및 관련 분야에서 그 중요성이 점점 커지고 있습니다. 그러나 현재의 다중 모달 대규모 언어 모델은 일반적으로 수동 샘플링 또는 약하게 연결된 검사를 통해 영상을 처리하여, 시간적으로 특정된 증거를 통해 예측을 반복적으로 찾고, 검증하고, 정당화하는 능력을 제한합니다. 이러한 격차를 해소하기 위해, 우리는 MedScope를 제안합니다. MedScope는 장시간 절차에 대한 거친-세밀 증거 탐색을 수행하는 도구 사용형 임상 영상 추론 모델입니다. MedScope는 중간 추론과 함께 대상 도구 호출 및 검색된 관찰에 대한 검증을 수행함으로써, 시간적으로 위치가 특정된 시각적 증거에 명시적으로 기반한 보다 정확하고 신뢰할 수 있는 예측을 생성합니다. 고품질의 지도 학습 데이터 부족 문제를 해결하기 위해, 우리는 증거 중심의 세밀한 임상 영상 데이터셋인 ClinVideoSuite를 구축했습니다. 그런 다음, 우리는 MedScope를 Grounding-Aware Group Relative Policy Optimization (GA-GRPO)를 사용하여 최적화했습니다. GA-GRPO는 도구 사용을 위치 정보에 맞춰 조정된 보상과 증거 가중치 기반의 이점을 통해 직접 강화합니다. MedScope는 전체 및 세밀한 영상 이해 벤치마크에서 인-도메인 및 아웃-오브-도메인 평가 모두에서 최첨단 성능을 달성합니다. 우리의 접근 방식은 도구 통합 추론을 통해 진정으로 "영상과 함께 사고하기"가 가능한 의료 AI 에이전트에 대한 방법을 제시합니다. 우리는 우리의 코드, 모델 및 데이터를 공개할 예정입니다.
Long-form clinical videos are central to visual evidence-based decision-making, with growing importance for applications such as surgical robotics and related settings. However, current multimodal large language models typically process videos with passive sampling or weakly grounded inspection, which limits their ability to iteratively locate, verify, and justify predictions with temporally targeted evidence. To close this gap, we propose MedScope, a tool-using clinical video reasoning model that performs coarse-to-fine evidence seeking over long-form procedures. By interleaving intermediate reasoning with targeted tool calls and verification on retrieved observations, MedScope produces more accurate and trustworthy predictions that are explicitly grounded in temporally localized visual evidence. To address the lack of high-fidelity supervision, we build ClinVideoSuite, an evidence-centric, fine-grained clinical video suite. We then optimize MedScope with Grounding-Aware Group Relative Policy Optimization (GA-GRPO), which directly reinforces tool use with grounding-aligned rewards and evidence-weighted advantages. On full and fine-grained video understanding benchmarks, MedScope achieves state-of-the-art performance in both in-domain and out-of-domain evaluations. Our approach illuminates a path toward medical AI agents that can genuinely "think with videos" through tool-integrated reasoning. We will release our code, models, and data.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.