2603.04950v1 Mar 05, 2026 cs.CV

의료 영상의 미세한 차이점을 시각적으로 질문-응답하기 위한 위치 정보 기반 사전 학습

Location-Aware Pretraining for Medical Difference Visual Question Answering

Caren Han
Caren Han
Citations: 17
h-index: 2
Denis Musinguzi
Denis Musinguzi
Citations: 2
h-index: 1
Prasenjit Mitra
Prasenjit Mitra
Citations: 0
h-index: 0

기존의 단일 이미지 모델과 달리, 의료 영상의 미세한 차이점을 시각적으로 질문-응답하는 시스템은 여러 이미지를 처리하여 차이점을 식별하며, 이는 방사선과 의사의 비교 진단 워크플로우를 반영합니다. 그러나, 대조 학습 또는 분류 목표로 학습된 표준 시각 인코더는 종종 질병 진행과 획득 과정의 차이를 구별하는 데 필요한 미묘한 시각적 변화를 포착하지 못합니다. 이러한 한계를 해결하기 위해, 우리는 위치 정보를 활용하는 사전 학습 프레임워크를 제안합니다. 이 프레임워크는 자동 참조 표현 생성(AREF), 지시적 이미지 설명(GCAP), 그리고 조건부 자동 참조 표현 생성(CAREF)과 같은 특정 작업을 포함합니다. 이러한 작업들은 시각 인코더가 기존의 사전 학습 방법에서 간과되는 미세한, 공간적으로 위치 정보가 포함된 시각적 표현을 학습하도록 돕습니다. 우리는 이 향상된 시각 인코더를 언어 모델과 통합하여 의료 영상의 미세한 차이점을 시각적으로 질문-응답하는 시스템을 구현합니다. 실험 결과는 제안하는 방법이 흉부 X-ray 이미지에서 임상적으로 중요한 변화를 감지하고 추론하는 데 있어 최첨단 성능을 달성함을 보여줍니다.

Original Abstract

Unlike conventional single-image models, differential medical VQA frameworks process multiple images to identify differences, mirroring the comparative diagnostic workflow of radiologists. However, standard vision encoders trained on contrastive or classification objectives often fail to capture the subtle visual variations necessary for distinguishing disease progression from acquisition differences. To address this limitation, we introduce a pretraining framework that incorporates location-aware tasks, including automatic referring expressions (AREF), grounded captioning (GCAP), and conditional automatic referring expressions (CAREF). These specific tasks enable the vision encoder to learn fine-grained, spatially grounded visual representations that are often overlooked by traditional pre-training methods. We subsequently integrate this enhanced vision encoder with a language model to perform medical difference VQA. Experimental results demonstrate that our approach achieves state-of-the-art performance in detecting and reasoning about clinically relevant changes in chest X-ray images.

0 Citations
0 Influential
1 Altmetric
5.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!