2604.22989v1 Apr 24, 2026 cs.CV

CheXmix: 의료 영상에서 멀티모달 언어 모델을 위한 통합 생성형 사전 훈련

CheXmix: Unified Generative Pretraining for Vision Language Models in Medical Imaging

Yunhe Gao
Yunhe Gao
Citations: 1,708
h-index: 17
M. Varma
M. Varma
Citations: 748
h-index: 10
K. Kenthapadi
K. Kenthapadi
Citations: 8,647
h-index: 40
Ashwin Kumar
Ashwin Kumar
Citations: 24
h-index: 3
R. Holland
R. Holland
Citations: 522
h-index: 2
Corey D. Barrett
Corey D. Barrett
Citations: 3
h-index: 1
Jangwon Kim
Jangwon Kim
Citations: 36
h-index: 3
Zhihong Chen
Zhihong Chen
Citations: 0
h-index: 0
Greg Zaharchuk
Greg Zaharchuk
Citations: 93
h-index: 2
Tara Taghavi
Tara Taghavi
Citations: 3
h-index: 1
Akshay Chaudhari
Akshay Chaudhari
Citations: 3
h-index: 1

최근의 의료 멀티모달 기반 모델은 CLIP으로 사전 훈련된 시각 인코더를 LLM과 연결하고 LLaVA 스타일의 미세 조정(finetuning)을 통해 구축됩니다. 이러한 두 단계로 구성된 분리된 접근 방식은 시각적 특징을 왜곡할 수 있는 투영 레이어를 도입합니다. 이는 정확한 진단을 위해 미세한 단서가 중요한 의료 영상 분야에서 특히 우려되는 문제입니다. 반면, Chameleon과 같은 초기 융합 생성적 접근 방식은 이미지와 텍스트 토큰을 단일 통합 시퀀스 내에서 처리하여 투영 병목 현상을 제거하고, 언어 모델의 귀납적 선호도를 활용하는 공동 표현 학습을 가능하게 합니다. 본 논문에서는 대규모의 흉부 X-선 이미지와 방사선 보고서 데이터셋으로 훈련된 통합 초기 융합 생성 모델인 CheXmix를 제안합니다. 우리는 Chameleon의 자기 회귀 프레임워크를 확장하여, 마스크된 오토인코더의 표현력을 멀티모달 LLM과 결합하는 두 단계의 멀티모달 생성형 사전 훈련 전략을 도입합니다. 결과적으로 생성된 모델은 매우 유연하며, 거시적 및 미시적 수준 모두에서 판별적 및 생성적 작업 모두를 지원합니다. 우리의 접근 방식은 CheXpert 분류 작업에서 높은 이미지 마스킹 비율에서 6.0% 더 우수한 성능을 보이며, AUROC 지표에서 CheXagent를 8.6% 능가합니다. 또한, 이미지 복원 작업에서는 텍스트만 사용하는 생성 모델보다 51.0% 더 우수한 성능을 보이며, 방사선 보고서 생성 작업에서는 GREEN 지표에서 CheXagent를 45% 능가합니다. 이러한 결과는 CheXmix가 다양한 흉부 X-선 작업에 걸쳐 미세한 정보를 효과적으로 학습한다는 것을 보여줍니다. 저희의 코드는 다음 링크에서 확인할 수 있습니다: https://github.com/StanfordMIMI/CheXmix.

Original Abstract

Recent medical multimodal foundation models are built as multimodal LLMs (MLLMs) by connecting a CLIP-pretrained vision encoder to an LLM using LLaVA-style finetuning. This two-stage, decoupled approach introduces a projection layer that can distort visual features. This is especially concerning in medical imaging where subtle cues are essential for accurate diagnoses. In contrast, early-fusion generative approaches such as Chameleon eliminate the projection bottleneck by processing image and text tokens within a single unified sequence, enabling joint representation learning that leverages the inductive priors of language models. We present CheXmix, a unified early-fusion generative model trained on a large corpus of chest X-rays paired with radiology reports. We expand on Chameleon's autoregressive framework by introducing a two-stage multimodal generative pretraining strategy that combines the representational strengths of masked autoencoders with MLLMs. The resulting models are highly flexible, supporting both discriminative and generative tasks at both coarse and fine-grained scales. Our approach outperforms well-established generative models across all masking ratios by 6.0% and surpasses CheXagent by 8.6% on AUROC at high image masking ratios on the CheXpert classification task. We further inpaint images over 51.0% better than text-only generative models and outperform CheXagent by 45% on the GREEN metric for radiology report generation. These results demonstrate that CheXmix captures fine-grained information across a broad spectrum of chest X-ray tasks. Our code is at: https://github.com/StanfordMIMI/CheXmix.

0 Citations
0 Influential
45.493061443341 Altmetric
227.5 Score
Original PDF
2

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!