SurgAtt-Tracker: 시간적 제안 재순위화 및 동작 인식 기반 실시간 수술 주의 집중 추적
SurgAtt-Tracker: Online Surgical Attention Tracking via Temporal Proposal Reranking and Motion-Aware Refinement
안전하고 효율적인 최소 침습 수술을 위해서는 정확하고 안정적인 시야 가이드가 필수적이지만, 기존 방법들은 종종 시각적 주의 집중 추정을 하위 작업 제어와 혼동하거나, 객체 중심적인 가정에 의존합니다. 본 연구에서는 수술 주의 집중 추적을 공간-시간적 학습 문제로 정의하고, 외과의의 집중 영역을 밀집된 주의 집중 히트맵으로 모델링하여, 프레임 단위의 지속적이고 해석 가능한 시야 가이드를 제공합니다. 우리는 제안 수준의 재순위화 및 동작 인식 기반 개선을 통해 수술 주의 집중을 강력하게 추적하는 통합 프레임워크인 SurgAtt-Tracker를 제안합니다. 체계적인 학습 및 평가를 지원하기 위해, 우리는 임상적 근거를 바탕으로 한 주석 프로토콜을 통해 다양한 수술 및 기관에서의 히트맵 기반 주의 집중 분석을 가능하게 하는 대규모 벤치마크인 SurgAtt-1.16M을 소개합니다. 여러 수술 데이터셋에 대한 광범위한 실험 결과, SurgAtt-Tracker는 일관되게 최첨단 성능을 달성하며, 가려짐, 다중 기구 간섭 및 교차 도메인 환경에서도 강력한 안정성을 보입니다. 본 연구의 접근 방식은 주의 집중 추적뿐만 아니라, 프레임 단위의 시야 가이드 신호를 제공하여 로봇 기반 시야 계획 및 자동 카메라 제어를 직접 지원할 수 있습니다.
Accurate and stable field-of-view (FoV) guidance is critical for safe and efficient minimally invasive surgery, yet existing approaches often conflate visual attention estimation with downstream camera control or rely on direct object-centric assumptions. In this work, we formulate surgical attention tracking as a spatio-temporal learning problem and model surgeon focus as a dense attention heatmap, enabling continuous and interpretable frame-wise FoV guidance. We propose SurgAtt-Tracker, a holistic framework that robustly tracks surgical attention by exploiting temporal coherence through proposal-level reranking and motion-aware refinement, rather than direct regression. To support systematic training and evaluation, we introduce SurgAtt-1.16M, a large-scale benchmark with a clinically grounded annotation protocol that enables comprehensive heatmap-based attention analysis across procedures and institutions. Extensive experiments on multiple surgical datasets demonstrate that SurgAtt-Tracker consistently achieves state-of-the-art performance and strong robustness under occlusion, multi-instrument interference, and cross-domain settings. Beyond attention tracking, our approach provides a frame-wise FoV guidance signal that can directly support downstream robotic FoV planning and automatic camera control.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.