OmniCT: 포괄적인 CT 분석을 위한 통합 슬라이스-볼륨 통합 시각-언어 모델
OmniCT: Towards a Unified Slice-Volume LVLM for Comprehensive CT Analysis
컴퓨터 단층 촬영(CT)은 심장, 폐, 간, 대장과 같은 중요한 장기를 포함하는 가장 널리 사용되고 진단 정보가 풍부한 영상 기술 중 하나입니다. 임상적 해석은 슬라이스 기반의 국소적 특징(예: 센티미터 미만 크기의 결절, 병변 경계)과 볼륨 기반의 공간 표현(예: 종양 침윤, 장기 간의 해부학적 관계) 모두에 의존합니다. 그러나 기존의 대규모 시각-언어 모델(LVLM)은 CT 슬라이스와 전체 볼륨 데이터에 대한 이해가 분산되어 있습니다. 슬라이스 기반 LVLM은 일반화 성능이 뛰어나지만 슬라이스 간의 공간적 일관성이 부족하며, 볼륨 기반 LVLM은 볼륨 의미를 명시적으로 반영하지만 해상도가 낮고 슬라이스 입력과의 호환성이 떨어집니다. 이러한 통합 모델링 패러다임의 부재는 의료 LVLM의 임상 적용에 있어 주요 장애물입니다. 본 연구에서는 CT 환경을 위한 강력한 통합 슬라이스-볼륨 LVLM인 OmniCT를 제안하며, 다음과 같은 세 가지 주요 기여를 합니다. (i) 공간 일관성 강화(SCE): 삼축 위치 임베딩을 사용한 볼륨 슬라이스 구성은 볼륨 일관성을 제공하며, MoE 하이브리드 투영은 효율적인 슬라이스-볼륨 적응을 가능하게 합니다. (ii) 장기 수준 의미 강화(OSE): 분할 및 관심 영역(ROI) 지역화는 해부학적 영역을 명시적으로 정렬하여 병변 및 장기 수준의 의미를 강조합니다. (iii) MedEval-CT: 가장 큰 슬라이스-볼륨 CT 데이터셋이자 하이브리드 벤치마크로, 통합 평가를 위한 포괄적인 지표를 제공합니다. OmniCT는 다양한 임상 작업에서 기존 방법보다 현저하게 우수한 성능을 보이며, 미세 수준의 세부 정보 감지와 거시 수준의 공간 추론 모두를 만족시킵니다. 더욱 중요한 것은, OmniCT는 교차 모달 의료 영상 이해를 위한 새로운 패러다임을 제시합니다.
Computed Tomography (CT) is one of the most widely used and diagnostically information-dense imaging modalities, covering critical organs such as the heart, lungs, liver, and colon. Clinical interpretation relies on both slice-driven local features (e.g., sub-centimeter nodules, lesion boundaries) and volume-driven spatial representations (e.g., tumor infiltration, inter-organ anatomical relations). However, existing Large Vision-Language Models (LVLMs) remain fragmented in CT slice versus volumetric understanding: slice-driven LVLMs show strong generalization but lack cross-slice spatial consistency, while volume-driven LVLMs explicitly capture volumetric semantics but suffer from coarse granularity and poor compatibility with slice inputs. The absence of a unified modeling paradigm constitutes a major bottleneck for the clinical translation of medical LVLMs. We present OmniCT, a powerful unified slice-volume LVLM for CT scenarios, which makes three contributions: (i) Spatial Consistency Enhancement (SCE): volumetric slice composition combined with tri-axial positional embedding that introduces volumetric consistency, and an MoE hybrid projection enables efficient slice-volume adaptation; (ii) Organ-level Semantic Enhancement (OSE): segmentation and ROI localization explicitly align anatomical regions, emphasizing lesion- and organ-level semantics; (iii) MedEval-CT: the largest slice-volume CT dataset and hybrid benchmark integrates comprehensive metrics for unified evaluation. OmniCT consistently outperforms existing methods with a substantial margin across diverse clinical tasks and satisfies both micro-level detail sensitivity and macro-level spatial reasoning. More importantly, it establishes a new paradigm for cross-modal medical imaging understanding.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.