SAW: 제어 가능하고 확장 가능한 비디오 생성을 통한 수술 행동 세계 모델 구축
SAW: Toward a Surgical Action World Model via Controllable and Scalable Video Generation
현실적인 수술 행동 비디오를 생성하고 수기구-조직 상호 작용에 대한 정밀한 제어를 제공하는 수술 세계 모델은 데이터 부족, 희귀 이벤트 생성, 수술 자동화를 위한 시뮬레이션-실제 격차 해소 등 수술 인공지능 및 시뮬레이션의 근본적인 과제를 해결할 수 있습니다. 그러나 현재 비디오 생성 방법은 이러한 수술 세계 모델의 핵심 기술이지만, 추론 과정에서 값비싼 어노테이션이나 복잡한 구조화된 중간 데이터를 필요로 하여 확장성에 제한이 있습니다. 또한, 다른 접근 방식은 복잡한 흉강 내시경 장면에서 일관성이 부족하고 충분한 현실감을 제공하지 못합니다. 본 논문에서는 수술 행동 세계 모델 (SAW)을 제안하며, 이는 수술 행동 세계 모델링의 한 단계입니다. SAW는 네 가지의 경량화된 신호 (도구-행동 컨텍스트를 인코딩하는 언어 프롬프트, 참조 수술 장면, 조직 가능성 마스크, 2차원 도구 끝점 궤적)를 조건으로 하는 비디오 디퓨전 기술을 사용합니다. 우리는 비디오-비디오 디퓨전을 궤적 기반의 수술 행동 합성으로 재구성하는 조건부 비디오 디퓨전 접근 방식을 설계했습니다. 핵심 디퓨전 모델은 12,044개의 흉강 내시경 클립으로 구성된 맞춤형 데이터셋으로 미세 조정되었으며, 추론 과정에서 깊이 정보를 필요로 하지 않으면서도 기하학적 타당성을 유지하기 위해 깊이 일관성 손실을 활용했습니다. SAW는 기존 기술 대비 뛰어난 시간적 일관성 (CD-FVD: 199.19 vs. 546.82) 및 우수한 시각적 품질을 제공하며, 실제 테스트 데이터에서 희귀한 행동을 SAW가 생성한 비디오로 보강함으로써 행동 인식 성능을 향상시킵니다 (클리핑 F1-score: 20.93%에서 43.14%로 증가; 절단: 0.00%에서 8.33%로 증가). 또한, 시뮬레이터에서 얻은 궤적 데이터를 기반으로 도구-조직 상호 작용 비디오를 렌더링하여 시각적으로 충실한 시뮬레이션 엔진을 구축하는 데 활용될 수 있습니다.
A surgical world model capable of generating realistic surgical action videos with precise control over tool-tissue interactions can address fundamental challenges in surgical AI and simulation -- from data scarcity and rare event synthesis to bridging the sim-to-real gap for surgical automation. However, current video generation methods, the very core of such surgical world models, require expensive annotations or complex structured intermediates as conditioning signals at inference, limiting their scalability. Other approaches exhibit limited temporal consistency across complex laparoscopic scenes and do not possess sufficient realism. We propose Surgical Action World (SAW) -- a step toward surgical action world modeling through video diffusion conditioned on four lightweight signals: language prompts encoding tool-action context, a reference surgical scene, tissue affordance mask, and 2D tool-tip trajectories. We design a conditional video diffusion approach that reformulates video-to-video diffusion into trajectory-conditioned surgical action synthesis. The backbone diffusion model is fine-tuned on a custom-curated dataset of 12,044 laparoscopic clips with lightweight spatiotemporal conditioning signals, leveraging a depth consistency loss to enforce geometric plausibility without requiring depth at inference. SAW achieves state-of-the-art temporal consistency (CD-FVD: 199.19 vs. 546.82) and strong visual quality on held-out test data. Furthermore, we demonstrate its downstream utility for (a) surgical AI, where augmenting rare actions with SAW-generated videos improves action recognition (clipping F1-score: 20.93% to 43.14%; cutting: 0.00% to 8.33%) on real test data, and (b) surgical simulation, where rendering tool-tissue interaction videos from simulator-derived trajectory points toward a visually faithful simulation engine.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.