움직임이 있는 곳은 중요합니다: 동작을 활용한 수술 기구 분할
Where It Moves, It Matters: Referring Surgical Instrument Segmentation via Motion
직관적인, 언어 기반의 수술 장면 상호 작용은 지능형 수술실과 자율적인 수술 로봇 지원을 위한 중요한 단계입니다. 그러나 자연어 설명을 기반으로 수술 기구를 특정하는 '참조 분할' 작업은 수술 영상 분야에서 아직 활발히 연구되지 않고 있으며, 기존 연구들은 정적인 시각적 단서와 미리 정의된 기구 이름에 의존하여 일반화에 어려움을 겪습니다. 본 연구에서는 SurgRef라는 새로운, 동작 기반의 프레임워크를 제시합니다. SurgRef는 도구의 외형이 아닌, 시간이 지남에 따라 도구가 어떻게 움직이고 상호 작용하는지를 파악하여 자유 형식의 언어 표현을 기구의 움직임과 연결합니다. 이를 통해 모델은 가려짐, 모호성 또는 익숙하지 않은 용어에서도 기구를 이해하고 분할할 수 있습니다. SurgRef의 학습 및 평가를 위해, 우리는 다양한 기관의 비디오 데이터셋인 Ref-IMotion을 제시합니다. Ref-IMotion은 풍부한 시공간 마스크와 동작 중심의 설명을 포함하고 있습니다. SurgRef는 다양한 수술 절차에서 최고 수준의 정확도와 일반화 성능을 달성하여, 견고하고 언어 기반의 수술 영상 분할 분야의 새로운 기준을 제시합니다.
Enabling intuitive, language-driven interaction with surgical scenes is a critical step toward intelligent operating rooms and autonomous surgical robotic assistance. However, the task of referring segmentation, localizing surgical instruments based on natural language descriptions, remains underexplored in surgical videos, with existing approaches struggling to generalize due to reliance on static visual cues and predefined instrument names. In this work, we introduce SurgRef, a novel motion-guided framework that grounds free-form language expressions in instrument motion, capturing how tools move and interact across time, rather than what they look like. This allows models to understand and segment instruments even under occlusion, ambiguity, or unfamiliar terminology. To train and evaluate SurgRef, we present Ref-IMotion, a diverse, multi-institutional video dataset with dense spatiotemporal masks and rich motion-centric expressions. SurgRef achieves state-of-the-art accuracy and generalization across surgical procedures, setting a new benchmark for robust, language-driven surgical video segmentation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.