2603.09109v1 Mar 10, 2026 cs.CV

VIVID-Med: LLM 기반의 구조화된 사전 훈련을 통한 의료용 ViT 모델 개발

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

X. Tan
X. Tan
Citations: 421
h-index: 13
Xihe Qiu
Xihe Qiu
Citations: 106
h-index: 7
Yang Dai
Yang Dai
Citations: 1
h-index: 1
Xiyao Wang
Xiyao Wang
Citations: 142
h-index: 2
Shuo Li
Shuo Li
Citations: 47
h-index: 3
Yu Fu
Yu Fu
Citations: 21
h-index: 3

시각-언어 사전 훈련은 의료 영상 분석 분야에서 상당한 발전을 이끌었습니다. 그러나 현재의 방법들은 일반적으로 원-핫 레이블 또는 자유 형식 텍스트를 사용하여 시각 인코더를 지도하며, 이는 임상 소견 간의 복잡한 의미 관계를 효과적으로 포착하지 못합니다. 본 연구에서는 VIVID-Med라는 새로운 프레임워크를 소개합니다. VIVID-Med는 고정된 대규모 언어 모델(LLM)을 구조화된 의미론적 지도자로 활용하여 의료용 비전 트랜스포머(ViT) 모델을 사전 훈련합니다. VIVID-Med는 통합 의료 스키마(UMS)를 사용하여 임상 소견을 검증 가능한 JSON 필드-상태 쌍으로 변환하고, 답변 가능성을 고려한 마스킹을 통해 최적화를 집중시킵니다. 또한, 구조화된 예측 분해(SPD)를 사용하여 크로스-어텐션을 직교성 규제된 쿼리 그룹으로 분할하여 상호 보완적인 시각적 특징을 추출합니다. 중요한 점은 LLM은 사전 훈련 후 제거되어, 가볍고 배포 가능한 ViT 전용 백본 모델을 얻을 수 있다는 것입니다. VIVID-Med는 다양한 환경에서 평가되었으며, CheXpert 선형 탐색에서 0.8588의 매크로-AUC를 달성하여 BiomedCLIP보다 6.65 포인트 더 높은 성능을 보였으며, 500배 적은 데이터로 학습했습니다. 또한, NIH ChestX-ray14(0.7225 매크로-AUC)로의 강력한 제로샷 교차 도메인 전이 및 CT 영상에 대한 뛰어난 교차 모달 일반화 성능을 보였으며, LIDC-IDRI 폐 결절 분류에서 0.8413의 AUC, OrganAMNIST 11개 장기 분류에서 0.9969의 매크로-AUC를 달성했습니다. VIVID-Med는 임상 환경에서 리소스 집약적인 시각-언어 모델을 배포하는 대신, 매우 효율적이고 확장 가능한 대안을 제공합니다.

Original Abstract

Vision-language pretraining has driven significant progress in medical image analysis. However, current methods typically supervise visual encoders using one-hot labels or free-form text, neither of which effectively captures the complex semantic relationships among clinical findings. In this study, we introduce VIVID-Med, a novel framework that leverages a frozen large language model (LLM) as a structured semantic teacher to pretrain medical vision transformers (ViTs). VIVID-Med translates clinical findings into verifiable JSON field-state pairs via a Unified Medical Schema (UMS), utilizing answerability-aware masking to focus optimization. It then employs Structured Prediction Decomposition (SPD) to partition cross-attention into orthogonality-regularized query groups, extracting complementary visual aspects. Crucially, the LLM is discarded post-training, yielding a lightweight, deployable ViT-only backbone. We evaluated VIVID-Med across multiple settings: on CheXpert linear probing, it achieves a macro-AUC of 0.8588, outperforming BiomedCLIP by +6.65 points while using 500x less data. It also demonstrates robust zero-shot cross-domain transfer to NIH ChestX-ray14 (0.7225 macro-AUC) and strong cross-modality generalization to CT, achieving 0.8413 AUC on LIDC-IDRI lung nodule classification and 0.9969 macro-AUC on OrganAMNIST 11-organ classification. VIVID-Med offers a highly efficient, scalable alternative to deploying resource-heavy vision-language models in clinical settings.

0 Citations
0 Influential
6.5 Altmetric
32.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!