2601.03733v1 Jan 07, 2026 cs.CV

RadDiff: 자연어 설명을 통해 방사선 영상 데이터 세트의 차이점 분석

RadDiff: Describing Differences in Radiology Image Sets with Natural Language

Yuhui Zhang
Yuhui Zhang
Stanford University
Citations: 11,624
h-index: 19
S. Yeung-Levy
S. Yeung-Levy
Citations: 1,244
h-index: 20
Xiaoxian Shen
Xiaoxian Shen
Citations: 3
h-index: 1
Sahithi Ankireddy
Sahithi Ankireddy
Citations: 6
h-index: 2
Xiaohan Wang
Xiaohan Wang
Citations: 609
h-index: 10
M. Varma
M. Varma
Citations: 640
h-index: 9
Henry H. Guo
Henry H. Guo
Citations: 20
h-index: 2
C. Langlotz
C. Langlotz
Citations: 578
h-index: 12

두 개의 방사선 영상 데이터 세트 간의 차이점을 이해하는 것은 임상적 통찰력을 얻고 의료 AI 시스템을 해석하는 데 매우 중요합니다. 본 논문에서는 방사선 전문의의 방식으로 비교 분석을 수행하여 임상적으로 의미 있는 방사선 검사 결과의 차이점을 설명하는 다중 모드 에이전트 시스템인 RadDiff를 소개합니다. RadDiff는 VisDiff의 제안-순위 결정 프레임워크를 기반으로 하며, 실제 진단 워크플로우에서 영감을 받은 네 가지 혁신을 통합합니다. (1) 도메인에 특화된 시각-언어 모델을 통해 의료 지식을 주입하고, (2) 이미지와 임상 보고서를 통합하는 다중 모드 추론을 수행하며, (3) 여러 추론 단계에 걸쳐 가설을 반복적으로 개선하고, (4) 중요한 영역을 찾아 확대하여 미묘한 발견 사항을 포착하는 타겟 시각 검색을 사용합니다. RadDiff의 성능을 평가하기 위해, 57쌍의 전문가 검증을 거친 방사선 검사 데이터 세트와 그에 대한 정확한 차이점 설명을 포함하는 RadDiffBench라는 벤치마크를 구축했습니다. RadDiffBench에서 RadDiff는 47%의 정확도를 달성했으며, 정확한 보고서의 도움을 받으면 50%의 정확도를 달성하여, 일반 도메인 VisDiff의 기준 성능을 크게 능가했습니다. 또한, RadDiff는 COVID-19의 표현형 비교, 인종별 하위 그룹 분석, 생존과 관련된 영상 특징 발견 등 다양한 임상적 작업에서 활용될 수 있음을 보여줍니다. RadDiff와 RadDiffBench는 방사선 데이터에서 의미 있는 차이점을 체계적으로 파악하기 위한 첫 번째 방법론 및 벤치마크 기반을 제공합니다.

Original Abstract

Understanding how two radiology image sets differ is critical for generating clinical insights and for interpreting medical AI systems. We introduce RadDiff, a multimodal agentic system that performs radiologist-style comparative reasoning to describe clinically meaningful differences between paired radiology studies. RadDiff builds on a proposer-ranker framework from VisDiff, and incorporates four innovations inspired by real diagnostic workflows: (1) medical knowledge injection through domain-adapted vision-language models; (2) multimodal reasoning that integrates images with their clinical reports; (3) iterative hypothesis refinement across multiple reasoning rounds; and (4) targeted visual search that localizes and zooms in on salient regions to capture subtle findings. To evaluate RadDiff, we construct RadDiffBench, a challenging benchmark comprising 57 expert-validated radiology study pairs with ground-truth difference descriptions. On RadDiffBench, RadDiff achieves 47% accuracy, and 50% accuracy when guided by ground-truth reports, significantly outperforming the general-domain VisDiff baseline. We further demonstrate RadDiff's versatility across diverse clinical tasks, including COVID-19 phenotype comparison, racial subgroup analysis, and discovery of survival-related imaging features. Together, RadDiff and RadDiffBench provide the first method-and-benchmark foundation for systematically uncovering meaningful differences in radiological data.

0 Citations
0 Influential
10 Altmetric
50.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!