VIVID-Med: LLM 기반의 구조화된 사전 훈련을 통한 의료용 ViT 모델 개발
VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs
시각-언어 사전 훈련은 의료 영상 분석 분야에서 상당한 발전을 이끌었습니다. 그러나 현재의 방법들은 일반적으로 원-핫 레이블 또는 자유 형식 텍스트를 사용하여 시각 인코더를 지도하며, 이는 임상 소견 간의 복잡한 의미 관계를 효과적으로 포착하지 못합니다. 본 연구에서는 VIVID-Med라는 새로운 프레임워크를 소개합니다. VIVID-Med는 고정된 대규모 언어 모델(LLM)을 구조화된 의미론적 지도자로 활용하여 의료용 비전 트랜스포머(ViT) 모델을 사전 훈련합니다. VIVID-Med는 통합 의료 스키마(UMS)를 사용하여 임상 소견을 검증 가능한 JSON 필드-상태 쌍으로 변환하고, 답변 가능성을 고려한 마스킹을 통해 최적화를 집중시킵니다. 또한, 구조화된 예측 분해(SPD)를 사용하여 크로스-어텐션을 직교성 규제된 쿼리 그룹으로 분할하여 상호 보완적인 시각적 특징을 추출합니다. 중요한 점은 LLM은 사전 훈련 후 제거되어, 가볍고 배포 가능한 ViT 전용 백본 모델을 얻을 수 있다는 것입니다. VIVID-Med는 다양한 환경에서 평가되었으며, CheXpert 선형 탐색에서 0.8588의 매크로-AUC를 달성하여 BiomedCLIP보다 6.65 포인트 더 높은 성능을 보였으며, 500배 적은 데이터로 학습했습니다. 또한, NIH ChestX-ray14(0.7225 매크로-AUC)로의 강력한 제로샷 교차 도메인 전이 및 CT 영상에 대한 뛰어난 교차 모달 일반화 성능을 보였으며, LIDC-IDRI 폐 결절 분류에서 0.8413의 AUC, OrganAMNIST 11개 장기 분류에서 0.9969의 매크로-AUC를 달성했습니다. VIVID-Med는 임상 환경에서 리소스 집약적인 시각-언어 모델을 배포하는 대신, 매우 효율적이고 확장 가능한 대안을 제공합니다.
Vision-language pretraining has driven significant progress in medical image analysis. However, current methods typically supervise visual encoders using one-hot labels or free-form text, neither of which effectively captures the complex semantic relationships among clinical findings. In this study, we introduce VIVID-Med, a novel framework that leverages a frozen large language model (LLM) as a structured semantic teacher to pretrain medical vision transformers (ViTs). VIVID-Med translates clinical findings into verifiable JSON field-state pairs via a Unified Medical Schema (UMS), utilizing answerability-aware masking to focus optimization. It then employs Structured Prediction Decomposition (SPD) to partition cross-attention into orthogonality-regularized query groups, extracting complementary visual aspects. Crucially, the LLM is discarded post-training, yielding a lightweight, deployable ViT-only backbone. We evaluated VIVID-Med across multiple settings: on CheXpert linear probing, it achieves a macro-AUC of 0.8588, outperforming BiomedCLIP by +6.65 points while using 500x less data. It also demonstrates robust zero-shot cross-domain transfer to NIH ChestX-ray14 (0.7225 macro-AUC) and strong cross-modality generalization to CT, achieving 0.8413 AUC on LIDC-IDRI lung nodule classification and 0.9969 macro-AUC on OrganAMNIST 11-organ classification. VIVID-Med offers a highly efficient, scalable alternative to deploying resource-heavy vision-language models in clinical settings.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.