2603.18544v1 Mar 19, 2026 eess.IV

SCISSR: 스케치 기반의 상호작용형 수술 장면 분할 및 개선 프레임워크

SCISSR: Scribble-Conditioned Interactive Surgical Segmentation and Refinement

Yutong Ban
Yutong Ban
Citations: 34
h-index: 2
Haonan Ping
Haonan Ping
Citations: 5
h-index: 1
Qizhen Sun
Qizhen Sun
Citations: 14
h-index: 2
Lv Wu
Lv Wu
Citations: 4
h-index: 1
Jian Jiang
Jian Jiang
Citations: 32
h-index: 3
Cheng Yuan
Cheng Yuan
Citations: 11
h-index: 2

불규칙한 형태, 얇은 구조, 반사 현상 및 빈번한 가려짐으로 인해 수술 장면에서 조직 및 기구를 정확하게 분할하는 것은 많은 작업이 필요합니다. SAM 모델은 점, 박스 및 마스크 프롬프트를 지원하지만, 점은 종종 너무 드물고 박스는 목표 지점을 정확하게 식별하기에 너무 거칠 수 있습니다. 본 논문에서는 상호작용형 수술 장면 분할을 위한 스케치 기반 프레임워크인 SCISSR을 제안합니다. SCISSR은 자유로운 스케치를 밀집된 프롬프트 임베딩으로 변환하는 경량 스케치 인코더를 도입하여 마스크 디코더와 호환성을 유지합니다. 이를 통해 사용자는 오류 영역에 수정 스케치를 그리는 방식으로 대상 객체를 반복적으로 개선할 수 있습니다. 추가된 모든 모듈(스케치 인코더, 공간 게이트 퓨전 및 LoRA 어댑터)은 백본 모델의 표준 임베딩 인터페이스를 통해서만 상호 작용하므로, 본 프레임워크는 특정 모델에 종속되지 않습니다. 본 연구에서는 SAM 2를 기반으로 구축했지만, 동일한 구성 요소는 구조적 수정 없이 SAM 3과 같은 다른 프롬프트 기반 분할 아키텍처에도 적용될 수 있습니다. 사전 학습된 기능을 유지하기 위해, 백본 모델은 고정하고 추가된 경량 모듈만 학습합니다. EndoVis 2018 데이터셋에 대한 실험 결과, 뛰어난 성능을 보였으며, CholecSeg8k 데이터셋에 대한 평가를 통해 다양한 수술 분야에서의 견고성을 확인했습니다. SCISSR은 EndoVis 2018 데이터셋에서 95.41%의 Dice 계수를, CholecSeg8k 데이터셋에서 96.30%의 Dice 계수를 달성했으며, 이는 두 데이터셋 모두에서 반복적인 점 프롬프팅 방식보다 우수한 성능입니다.

Original Abstract

Accurate segmentation of tissues and instruments in surgical scenes is annotation-intensive due to irregular shapes, thin structures, specularities, and frequent occlusions. While SAM models support point, box, and mask prompts, points are often too sparse and boxes too coarse to localize such challenging targets. We present SCISSR, a scribble-promptable framework for interactive surgical scene segmentation. It introduces a lightweight Scribble Encoder that converts freehand scribbles into dense prompt embeddings compatible with the mask decoder, enabling iterative refinement for a target object by drawing corrective strokes on error regions. Because all added modules (the Scribble Encoder, Spatial Gated Fusion, and LoRA adapters) interact with the backbone only through its standard embedding interfaces, the framework is not tied to a single model: we build on SAM 2 in this work, yet the same components transfer to other prompt-driven segmentation architectures such as SAM 3 without structural modification. To preserve pre-trained capabilities, we train only these lightweight additions while keeping the remaining backbone frozen. Experiments on EndoVis 2018 demonstrate strong in-domain performance, while evaluation on the out-of-distribution CholecSeg8k further confirms robustness across surgical domains. SCISSR achieves 95.41% Dice on EndoVis 2018 with five interaction rounds and 96.30% Dice on CholecSeg8k with three interaction rounds, outperforming iterative point prompting on both benchmarks.

0 Citations
0 Influential
1.5 Altmetric
7.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!