2602.20636v1 Feb 24, 2026 cs.CV

SurgAtt-Tracker: 시간적 제안 재순위화 및 동작 인식 기반 실시간 수술 주의 집중 추적

SurgAtt-Tracker: Online Surgical Attention Tracking via Temporal Proposal Reranking and Motion-Aware Refinement

Guankun Wang
Guankun Wang
Citations: 9
h-index: 2
An-Chi Wang
An-Chi Wang
Citations: 430
h-index: 11
Yujie Ma
Yujie Ma
Citations: 60
h-index: 2
Lixin Ouyang
Lixin Ouyang
Citations: 4
h-index: 1
Bo Cui
Bo Cui
Citations: 598
h-index: 6
Chaowei Zhu
Chaowei Zhu
Citations: 3
h-index: 1
Mingyang Li
Mingyang Li
Citations: 30
h-index: 1
Ming Chen
Ming Chen
Citations: 8
h-index: 2
Jiankun Wang
Jiankun Wang
Citations: 216
h-index: 7
Hongliang Ren
Hongliang Ren
Citations: 74
h-index: 4
Rulin Zhou
Rulin Zhou
Citations: 3
h-index: 1
Junyan Li
Junyan Li
Citations: 5
h-index: 1
Xiaopin Zhong
Xiaopin Zhong
Citations: 146
h-index: 6
Pengyue Lu
Pengyue Lu
Citations: 9
h-index: 1
Xianming Liu
Xianming Liu
Citations: 1
h-index: 1

안전하고 효율적인 최소 침습 수술을 위해서는 정확하고 안정적인 시야 가이드가 필수적이지만, 기존 방법들은 종종 시각적 주의 집중 추정을 하위 작업 제어와 혼동하거나, 객체 중심적인 가정에 의존합니다. 본 연구에서는 수술 주의 집중 추적을 공간-시간적 학습 문제로 정의하고, 외과의의 집중 영역을 밀집된 주의 집중 히트맵으로 모델링하여, 프레임 단위의 지속적이고 해석 가능한 시야 가이드를 제공합니다. 우리는 제안 수준의 재순위화 및 동작 인식 기반 개선을 통해 수술 주의 집중을 강력하게 추적하는 통합 프레임워크인 SurgAtt-Tracker를 제안합니다. 체계적인 학습 및 평가를 지원하기 위해, 우리는 임상적 근거를 바탕으로 한 주석 프로토콜을 통해 다양한 수술 및 기관에서의 히트맵 기반 주의 집중 분석을 가능하게 하는 대규모 벤치마크인 SurgAtt-1.16M을 소개합니다. 여러 수술 데이터셋에 대한 광범위한 실험 결과, SurgAtt-Tracker는 일관되게 최첨단 성능을 달성하며, 가려짐, 다중 기구 간섭 및 교차 도메인 환경에서도 강력한 안정성을 보입니다. 본 연구의 접근 방식은 주의 집중 추적뿐만 아니라, 프레임 단위의 시야 가이드 신호를 제공하여 로봇 기반 시야 계획 및 자동 카메라 제어를 직접 지원할 수 있습니다.

Original Abstract

Accurate and stable field-of-view (FoV) guidance is critical for safe and efficient minimally invasive surgery, yet existing approaches often conflate visual attention estimation with downstream camera control or rely on direct object-centric assumptions. In this work, we formulate surgical attention tracking as a spatio-temporal learning problem and model surgeon focus as a dense attention heatmap, enabling continuous and interpretable frame-wise FoV guidance. We propose SurgAtt-Tracker, a holistic framework that robustly tracks surgical attention by exploiting temporal coherence through proposal-level reranking and motion-aware refinement, rather than direct regression. To support systematic training and evaluation, we introduce SurgAtt-1.16M, a large-scale benchmark with a clinically grounded annotation protocol that enables comprehensive heatmap-based attention analysis across procedures and institutions. Extensive experiments on multiple surgical datasets demonstrate that SurgAtt-Tracker consistently achieves state-of-the-art performance and strong robustness under occlusion, multi-instrument interference, and cross-domain settings. Beyond attention tracking, our approach provides a frame-wise FoV guidance signal that can directly support downstream robotic FoV planning and automatic camera control.

0 Citations
0 Influential
5.5 Altmetric
27.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!