2602.21706v1 Feb 25, 2026 cs.CV

SurGo-R1: 수술 영상 내 수술 영역에 대한 문맥 추론 벤치마킹 및 모델링

SurGo-R1: Benchmarking and Modeling Contextual Reasoning for Operative Zone in Surgical Video

Guanyi Qin
Guanyi Qin
Citations: 145
h-index: 4
Xiaozhen Wang
Xiaozhen Wang
Citations: 0
h-index: 0
Zhu Zhuo
Zhu Zhuo
Citations: 35
h-index: 2
Chang Han Low
Chang Han Low
Citations: 81
h-index: 4
Yuancan Xiao
Yuancan Xiao
Citations: 4
h-index: 1
Chun-Jiang Li
Chun-Jiang Li
Citations: 2
h-index: 1
Yibing Fu
Yibing Fu
Citations: 49
h-index: 4
Haofeng Liu
Haofeng Liu
Citations: 61
h-index: 2
Kai Wang
Kai Wang
Citations: 15
h-index: 2
Yueming Jin
Yueming Jin
Citations: 43
h-index: 2

최소 침습 수술은 환자의 수술 결과를 크게 향상시켰지만, 중요한 단계에서 안전한 수술 영역을 식별하는 것은 여전히 어려운 과제이며, 외과의는 높은 인지적 부담 하에 시각적 단서, 절차 단계 및 해부학적 맥락을 통합해야 합니다. 기존의 AI 시스템은 이진 안전성 검증 또는 정적 탐지를 제공하며, 수술 중 추론의 단계 의존적인 특성을 고려하지 않습니다. 본 연구에서는 Go Zone 바운딩 박스와 단계, 노출 품질, 다음 행동, 위험 알림에 대한 임상 전문가의 설명을 포함하는 복강경 영상 프레임의 벤치마크인 ResGo를 소개합니다. 우리는 올바른 영역 지정이 잘못된 단계에서 발생할 경우 실패로 간주하는 평가 지표를 도입하여, 대부분의 시각-언어 모델이 이러한 작업을 처리할 수 없으며 성능이 좋지 않음을 보여줍니다. 그런 다음, RLHF를 통해 최적화된 다단계 모델인 SurGo-R1을 제시합니다. SurGo-R1은 먼저 수술 단계를 식별한 다음, 해당 맥락에 따라 추론과 Go Zone 좌표를 생성하는 구조를 갖습니다. SurGo-R1은 새로운 수술 절차에서 76.6%의 단계 정확도, 32.7의 mIoU, 54.8%의 핵심 정확도를 달성했으며, 이는 일반적인 시각-언어 모델보다 6.6배 향상된 성능입니다. 코드, 모델 및 벤치마크는 https://github.com/jinlab-imvr/SurGo-R1 에서 확인할 수 있습니다.

Original Abstract

Minimally invasive surgery has dramatically improved patient operative outcomes, yet identifying safe operative zones remains challenging in critical phases, requiring surgeons to integrate visual cues, procedural phase, and anatomical context under high cognitive load. Existing AI systems offer binary safety verification or static detection, ignoring the phase-dependent nature of intraoperative reasoning. We introduce ResGo, a benchmark of laparoscopic frames annotated with Go Zone bounding boxes and clinician-authored rationales covering phase, exposure quality reasoning, next action and risk reminder. We introduce evaluation metrics that treat correct grounding under incorrect phase as failures, revealing that most vision-language models cannot handle such tasks and perform poorly. We then present SurGo-R1, a model optimized via RLHF with a multi-turn phase-then-go architecture where the model first identifies the surgical phase, then generates reasoning and Go Zone coordinates conditioned on that context. On unseen procedures, SurGo-R1 achieves 76.6% phase accuracy, 32.7 mIoU, and 54.8% hardcore accuracy, a 6.6$\times$ improvement over the mainstream generalist VLMs. Code, model and benchmark will be available at https://github.com/jinlab-imvr/SurGo-R1

0 Citations
0 Influential
25.4657359028 Altmetric
127.3 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!