비전 기반 모델을 활용한 의료 영상 분할에서의 불확실성 탐구
Delving Aleatoric Uncertainty in Medical Image Segmentation via Vision Foundation Models
의료 영상 분할은 해부학적 구조와 병변을 정확하게 구분하여 임상 워크플로우를 지원합니다. 그러나 의료 영상 데이터는 획득 과정에서의 노이즈와 어노테이션의 모호성으로 인해 데이터 불확실성이 높아 모델의 안정성을 저해하는 문제가 있습니다. 기존 연구는 주로 모델 아키텍처 개선 및 예측 신뢰도 추정에 초점을 맞추고 있으며, 데이터 자체의 불확실성에 대한 체계적인 탐색은 부족한 실정입니다. 본 연구에서는 이러한 간극을 해소하기 위해, 시각적 기반 모델의 범용적인 표현 능력을 활용하여 내재된 데이터 불확실성을 추정하는 방법을 제안합니다. 구체적으로, 모델의 디코딩된 표현의 특징 다양성을 분석하고, 고유값 에너지(singular value energy)를 정량화하여 각 클래스에 대한 의미론적 인식 규모를 정의함으로써, 샘플의 난이도와 불확실성을 측정합니다. 이러한 기반을 바탕으로, 다음과 같은 두 가지 불확실성 기반의 응용 전략을 설계했습니다. (1) 잠재적으로 노이즈가 많은 샘플을 제거하고 모델 학습 품질을 향상시키는 불확실성 기반 데이터 필터링 메커니즘, (2) 의미론적 인식 규모에 따라 클래스별 손실 가중치를 동적으로 조정하는 불확실성 기반 최적화 전략. CT 및 MRI 모달리티를 포함하고 다기관 및 종양 분할 작업을 포함하는 5개의 공개 데이터 세트에서 수행한 실험 결과, 제안하는 방법은 다양한 주류 네트워크 아키텍처에서 상당하고 견고한 성능 향상을 달성했으며, 이는 의료 영상 이해 및 분할 작업에서 불확실성의 광범위한 활용 가능성을 보여줍니다.
Medical image segmentation supports clinical workflows by precisely delineating anatomical structures and lesions. However, medical image datasets medical image datasets suffer from acquisition noise and annotation ambiguity, causing pervasive data uncertainty that substantially undermines model robustness. Existing research focuses primarily on model architectural improvements and predictive reliability estimation, while systematic exploration of the intrinsic data uncertainty remains insufficient. To address this gap, this work proposes leveraging the universal representation capabilities of visual foundation models to estimate inherent data uncertainty. Specifically, we analyze the feature diversity of the model's decoded representations and quantify their singular value energy to define the semantic perception scale for each class, thereby measuring sample difficulty and aleatoric uncertainty. Based on this foundation, we design two uncertainty-driven application strategies: (1) the aleatoric uncertainty-aware data filtering mechanism to eliminate potentially noisy samples and enhance model learning quality; (2) the dynamic uncertainty-aware optimization strategy that adaptively adjusts class-specific loss weights during training based on the semantic perception scale, combined with a label denoising mechanism to improve training stability. Experimental results on five public datasets encompassing CT and MRI modalities and involving multi-organ and tumor segmentation tasks demonstrate that our method achieves significant and robust performance improvements across various mainstream network architectures, revealing the broad application potential of aleatoric uncertainty in medical image understanding and segmentation tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.