SurgAtt-Tracker: 시간적 제안 재순위화 및 동작 인식 기반 실시간 수술 주의 집중 추적
SurgAtt-Tracker: Online Surgical Attention Tracking via Temporal Proposal Reranking and Motion-Aware Refinement
안전하고 효율적인 최소 침습 수술을 위해서는 정확하고 안정적인 시야 가이드가 필수적이지만, 기존 방법들은 종종 시각적 주의 집중 추정을 하위 작업 제어와 혼동하거나, 객체 중심적인 가정에 의존합니다. 본 연구에서는 수술 주의 집중 추적을 공간-시간적 학습 문제로 정의하고, 외과의의 집중 영역을 밀집된 주의 집중 히트맵으로 모델링하여, 프레임 단위의 지속적이고 해석 가능한 시야 가이드를 제공합니다. 우리는 제안 수준의 재순위화 및 동작 인식 기반 개선을 통해 수술 주의 집중을 강력하게 추적하는 통합 프레임워크인 SurgAtt-Tracker를 제안합니다. 체계적인 학습 및 평가를 지원하기 위해, 우리는 임상적 근거를 바탕으로 한 주석 프로토콜을 통해 다양한 수술 및 기관에서의 히트맵 기반 주의 집중 분석을 가능하게 하는 대규모 벤치마크인 SurgAtt-1.16M을 소개합니다. 여러 수술 데이터셋에 대한 광범위한 실험 결과, SurgAtt-Tracker는 일관되게 최첨단 성능을 달성하며, 가려짐, 다중 기구 간섭 및 교차 도메인 환경에서도 강력한 안정성을 보입니다. 본 연구의 접근 방식은 주의 집중 추적뿐만 아니라, 프레임 단위의 시야 가이드 신호를 제공하여 로봇 기반 시야 계획 및 자동 카메라 제어를 직접 지원할 수 있습니다.
Accurate and stable field-of-view (FoV) guidance is critical for safe and efficient minimally invasive surgery, yet existing approaches often conflate visual attention estimation with downstream camera control or rely on direct object-centric assumptions. In this work, we formulate surgical attention tracking as a spatio-temporal learning problem and model surgeon focus as a dense attention heatmap, enabling continuous and interpretable frame-wise FoV guidance. We propose SurgAtt-Tracker, a holistic framework that robustly tracks surgical attention by exploiting temporal coherence through proposal-level reranking and motion-aware refinement, rather than direct regression. To support systematic training and evaluation, we introduce SurgAtt-1.16M, a large-scale benchmark with a clinically grounded annotation protocol that enables comprehensive heatmap-based attention analysis across procedures and institutions. Extensive experiments on multiple surgical datasets demonstrate that SurgAtt-Tracker consistently achieves state-of-the-art performance and strong robustness under occlusion, multi-instrument interference, and cross-domain settings. Beyond attention tracking, our approach provides a frame-wise FoV guidance signal that can directly support downstream robotic FoV planning and automatic camera control.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.