MedVL-SAM2: 다중 모드 추론 및 프롬프트 기반 분할을 위한 통합 3차원 의료 비전-언어 모델
MedVL-SAM2: A unified 3D medical vision-language model for multimodal reasoning and prompt-driven segmentation
최근 의료 비전-언어 모델(VLM)의 발전은 보고서 생성 및 시각 질의 응답(VQA)과 같은 이미지 수준의 텍스트 중심 작업에서 뛰어난 성능을 달성했습니다. 그러나 3차원 의료 VLM에서 미세 수준의 시각적 연관성 및 체적 공간 추론을 달성하는 것은 여전히 어려운 과제이며, 특히 이러한 기능을 단일하고 일반화 가능한 프레임워크 내에서 통합하는 것은 더욱 어렵습니다. 이러한 과제에 대응하기 위해, 보고서 생성, VQA, 그리고 의미론적, 참조적, 상호 작용적 분할을 동시에 지원하는 통합 3차원 의료 다중 모드 모델인 MedVL-SAM2를 제안합니다. MedVL-SAM2는 3차원 의료 영상에 최적화된 일관된 아키텍처를 통해 이미지 수준의 추론과 픽셀 수준의 인지 능력을 통합하며, 정확한 다중 수준의 공간 추론을 가능하게 하는 SAM2 기반의 체적 분할 모듈을 포함합니다. 이 모델은 다단계 파이프라인으로 훈련됩니다. 먼저, 대규모의 3차원 CT 이미지-텍스트 쌍 데이터셋을 사용하여 3차원 시각적 특징과 방사선학-언어 임베딩을 정렬하는 사전 훈련을 수행합니다. 그런 다음, 포괄적인 3차원 CT 분할 데이터셋을 사용하여 언어 이해 및 분할 목표를 동시에 최적화합니다. 이러한 공동 훈련을 통해 언어, 점, 또는 박스 프롬프트를 통한 유연한 상호 작용이 가능하며, 이를 통해 고수준의 시각적 추론과 공간적으로 정확한 위치 파악을 통합합니다. 우리의 통합 아키텍처는 보고서 생성, VQA, 그리고 다양한 3차원 분할 작업에서 최첨단 성능을 제공합니다. 광범위한 분석 결과, 모델이 신뢰할 수 있는 3차원 시각적 연관성, 제어 가능한 상호 작용적 분할, 그리고 강력한 교차 모드 추론을 제공하며, 이는 고수준의 의미론적 추론과 정확한 3차원 위치 파악이 통합된 3차원 의료 VLM 내에서 동시에 달성될 수 있음을 보여줍니다.
Recent progress in medical vision-language models (VLMs) has achieved strong performance on image-level text-centric tasks such as report generation and visual question answering (VQA). However, achieving fine-grained visual grounding and volumetric spatial reasoning in 3D medical VLMs remains challenging, particularly when aiming to unify these capabilities within a single, generalizable framework. To address this challenge, we proposed MedVL-SAM2, a unified 3D medical multimodal model that concurrently supports report generation, VQA, and multi-paradigm segmentation, including semantic, referring, and interactive segmentation. MedVL-SAM2 integrates image-level reasoning and pixel-level perception through a cohesive architecture tailored for 3D medical imaging, and incorporates a SAM2-based volumetric segmentation module to enable precise multi-granular spatial reasoning. The model is trained in a multi-stage pipeline: it is first pre-trained on a large-scale corpus of 3D CT image-text pairs to align volumetric visual features with radiology-language embeddings. It is then jointly optimized with both language-understanding and segmentation objectives using a comprehensive 3D CT segmentation dataset. This joint training enables flexible interaction via language, point, or box prompts, thereby unifying high-level visual reasoning with spatially precise localization. Our unified architecture delivers state-of-the-art performance across report generation, VQA, and multiple 3D segmentation tasks. Extensive analyses further show that the model provides reliable 3D visual grounding, controllable interactive segmentation, and robust cross-modal reasoning, demonstrating that high-level semantic reasoning and precise 3D localization can be jointly achieved within a unified 3D medical VLM.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.