Surg$Σ$: 수술 지능을 위한 대규모 다중 모드 데이터 및 기초 모델
Surg$Σ$: A Spectrum of Large-Scale Multimodal Data and Foundation Models for Surgical Intelligence
수술 지능은 수술 치료의 안전성과 일관성을 향상시킬 잠재력을 가지고 있지만, 대부분의 기존 수술 AI 프레임워크는 특정 작업에 국한되며 절차 및 기관 간의 일반화에 어려움을 겪습니다. 다중 모드 기초 모델, 특히 다중 모드 대규모 언어 모델은 다양한 의료 분야에서 강력한 교차 작업 능력을 보여주었지만, 수술 분야에서의 발전은 대규모의 체계적으로 큐레이션된 다중 모드 데이터 부족으로 인해 제한되어 왔습니다. 이러한 문제를 해결하기 위해, 우리는 수술 지능을 위한 대규모 다중 모드 데이터 및 기초 모델인 Surg$Σ$를 소개합니다. 이 프레임워크의 핵심은 다양한 수술 작업을 지원하도록 설계된 대규모 다중 모드 데이터 기반인 Surg$Σ$-DB입니다. Surg$Σ$-DB는 이기종의 수술 데이터 소스(오픈 소스 데이터 세트, 자체적으로 큐레이션된 임상 컬렉션 및 웹 소스 데이터 포함)를 통합하여 통일된 스키마를 구축함으로써, 이기종 데이터 세트 간의 라벨 일관성 및 데이터 표준화를 개선하는 것을 목표로 합니다. Surg$Σ$-DB는 6개의 임상 전문 분야 및 다양한 수술 유형을 포괄하며, 이해, 추론, 계획 및 생성을 포함하는 18가지 실제 수술 작업에 걸쳐 이미지 및 비디오 수준의 풍부한 주석을 제공하며, 전례 없는 규모(598만 건 이상의 대화)를 자랑합니다. 기존의 다중 모드 대화 외에도, Surg$Σ$-DB는 계층적 추론 주석을 포함하여, 복잡한 수술 시나리오에서 더 깊은 수준의 문맥 이해를 지원하기 위한 풍부한 의미론적 단서를 제공합니다. 또한, Surg$Σ$-DB를 기반으로 개발된 최근의 수술 기초 모델을 통해, 대규모 다중 모드 주석, 통일된 의미론적 설계 및 구조화된 추론 주석이 교차 작업 일반화 및 해석 가능성을 향상시키는 데 미치는 실질적인 이점을 입증합니다.
Surgical intelligence has the potential to improve the safety and consistency of surgical care, yet most existing surgical AI frameworks remain task-specific and struggle to generalize across procedures and institutions. Although multimodal foundation models, particularly multimodal large language models, have demonstrated strong cross-task capabilities across various medical domains, their advancement in surgery remains constrained by the lack of large-scale, systematically curated multimodal data. To address this challenge, we introduce Surg$Σ$, a spectrum of large-scale multimodal data and foundation models for surgical intelligence. At the core of this framework lies Surg$Σ$-DB, a large-scale multimodal data foundation designed to support diverse surgical tasks. Surg$Σ$-DB consolidates heterogeneous surgical data sources (including open-source datasets, curated in-house clinical collections and web-source data) into a unified schema, aiming to improve label consistency and data standardization across heterogeneous datasets. Surg$Σ$-DB spans 6 clinical specialties and diverse surgical types, providing rich image- and video-level annotations across 18 practical surgical tasks covering understanding, reasoning, planning, and generation, at an unprecedented scale (over 5.98M conversations). Beyond conventional multimodal conversations, Surg$Σ$-DB incorporates hierarchical reasoning annotations, providing richer semantic cues to support deeper contextual understanding in complex surgical scenarios. We further provide empirical evidence through recently developed surgical foundation models built upon Surg$Σ$-DB, illustrating the practical benefits of large-scale multimodal annotations, unified semantic design, and structured reasoning annotations for improving cross-task generalization and interpretability.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.