의료 분야에 특화된 시각-언어 모델에서 추출 가능한 지식이 남아 있는가? 의료적으로 정밀하게 튜닝된 시각-언어 모델의 취약성에 대한 증거
Is There Knowledge Left to Extract? Evidence of Fragility in Medically Fine-Tuned Vision-Language Models
시각-언어 모델(VLM)은 점점 더 다양한 분야에 맞게 특화된 튜닝을 거치고 있지만, 이러한 튜닝이 표면적인 시각적 단서 이상의 추론 능력을 향상시키는지, 특히 의료와 같이 중요한 분야에서 그러한지 여부는 명확하지 않습니다. 본 연구에서는 뇌종양, 폐렴, 피부암, 조직병리학 분류의 네 가지 난이도가 다른 의료 영상 작업에 대해 LLaVA와 LLaVA-Med, Gemma와 MedGemma의 네 가지 시각-언어 모델을 비교 분석했습니다. 연구 결과, 작업 난이도가 증가함에 따라 성능이 무작위 수준에 가까워지는 경향을 보였으며, 이는 제한적인 임상적 추론 능력을 시사합니다. 의료 분야에 특화된 튜닝은 일관된 성능 향상을 가져오지 않았으며, 모델은 프롬프트 구성에 매우 민감하게 반응하여, 사소한 변경에도 정확도와 거부율에 큰 변화가 나타났습니다. 폐쇄형 VQA가 잠재적인 지식을 억제하는지 확인하기 위해, 모델이 이미지 설명을 생성하고, 이를 GPT-5.1과 같은 텍스트 전용 모델이 진단에 활용하는 파이프라인을 도입했습니다. 이 방법은 제한적인 추가 정보를 얻을 수 있었지만, 여전히 작업 난이도에 의해 제약되었습니다. 시각 인코더 임베딩 분석 결과, 실패 원인은 취약한 시각적 표현과 후속 추론 모두에 기인하는 것으로 나타났습니다. 전반적으로, 의료 VLM의 성능은 취약하며, 프롬프트에 의존적이며, 분야별 특화 튜닝을 통해 안정적으로 개선되지 않습니다.
Vision-language models (VLMs) are increasingly adapted through domain-specific fine-tuning, yet it remains unclear whether this improves reasoning beyond superficial visual cues, particularly in high-stakes domains like medicine. We evaluate four paired open-source VLMs (LLaVA vs. LLaVA-Med; Gemma vs. MedGemma) across four medical imaging tasks of increasing difficulty: brain tumor, pneumonia, skin cancer, and histopathology classification. We find that performance degrades toward near-random levels as task difficulty increases, indicating limited clinical reasoning. Medical fine-tuning provides no consistent advantage, and models are highly sensitive to prompt formulation, with minor changes causing large swings in accuracy and refusal rates. To test whether closed-form VQA suppresses latent knowledge, we introduce a description-based pipeline where models generate image descriptions that a text-only model (GPT-5.1) uses for diagnosis. This recovers a limited additional signal but remains bounded by task difficulty. Analysis of vision encoder embeddings further shows that failures stem from both weak visual representations and downstream reasoning. Overall, medical VLM performance is fragile, prompt-dependent, and not reliably improved by domain-specific fine-tuning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.