2604.00493v1 Apr 01, 2026 cs.CV

흉부 X선 영상 판독을 위한 추론 능력을 갖춘 시각-언어 기반 모델

A Reasoning-Enabled Vision-Language Foundation Model for Chest X-ray Interpretation

Yunhe Gao
Yunhe Gao
Citations: 1,708
h-index: 17
M. Varma
M. Varma
Citations: 748
h-index: 10
C. Langlotz
C. Langlotz
Citations: 694
h-index: 13
Yabin Zhang
Yabin Zhang
Citations: 163
h-index: 5
Jean-Benoit Delbrouck
Jean-Benoit Delbrouck
Citations: 2,603
h-index: 22
Chong Wang
Chong Wang
Citations: 679
h-index: 3
Jiaming Liu
Jiaming Liu
Citations: 296
h-index: 9
Justin Xu
Justin Xu
University of Oxford
Citations: 524
h-index: 6
S. Ostmeier
S. Ostmeier
Citations: 263
h-index: 6
Jin Long
Jin Long
Citations: 34
h-index: 2
S. Gatidis
S. Gatidis
Citations: 0
h-index: 0
S. Dehkharghani
S. Dehkharghani
Citations: 3,380
h-index: 27
A. Michalson
A. Michalson
Citations: 98
h-index: 2
Eun Kyoung Hong
Eun Kyoung Hong
Citations: 65
h-index: 3
Christian Bluethgen
Christian Bluethgen
Citations: 1,132
h-index: 12
Hai Guo
Hai Guo
Citations: 14
h-index: 2
Alexander V Ortiz
Alexander V Ortiz
Citations: 39
h-index: 3
Stephan Altmayer
Stephan Altmayer
Citations: 24
h-index: 2
Sandhya Bodapati
Sandhya Bodapati
Citations: 166
h-index: 4
Joseph D. Janizek
Joseph D. Janizek
Citations: 2,601
h-index: 15
K. Chang
K. Chang
Citations: 139
h-index: 4
Akshay S. Chaudhari
Akshay S. Chaudhari
Citations: 310
h-index: 6

흉부 X선 촬영(CXR)은 전 세계적으로 가장 흔하게 시행되는 영상 검사 중 하나이지만, 영상 검사량이 증가함에 따라 방사선 전문의의 업무 부담이 커지고 오진 위험이 높아지고 있습니다. 인공지능(AI) 시스템은 CXR 판독에 유망한 결과를 보여주었지만, 대부분 최종 예측 결과만 제공하며, 시각적 증거가 방사선학적 소견 및 진단 예측으로 어떻게 연결되는지를 명시적으로 설명하지 않습니다. 본 논문에서는 CXR 판독을 위한 추론 능력을 갖춘 시각-언어 모델인 CheXOne을 제시합니다. CheXOne은 진단 예측과 함께 시각적 증거, 방사선학적 소견, 이러한 예측을 연결하는 명시적인, 임상적으로 타당한 추론 과정을 동시에 생성합니다. 본 모델은 30개의 공개 데이터 세트에서 수집된 1470만 개의 지시 및 추론 샘플을 사용하여 36가지 CXR 판독 작업에 대해 학습되었으며, 추론 품질을 향상시키기 위해 지시 튜닝과 강화 학습을 결합한 2단계 프레임워크를 사용합니다. CheXOne은 시각적 질문 응답, 보고서 생성, 시각적 위치 지시 및 추론 평가를 포함한 17가지 평가 환경에서 0샷(zero-shot) 방식으로 평가되었습니다. CheXOne은 기존의 의료 및 일반 도메인 기반 모델보다 우수한 성능을 보이며, 독립적인 공개 벤치마크에서도 뛰어난 성능을 달성했습니다. 임상 전문가를 대상으로 한 연구 결과, CheXOne이 생성한 보고서는 55%의 경우에 레지던트가 작성한 보고서와 동등하거나 더 우수한 품질을 보이는 것으로 나타났습니다. 또한, CheXOne은 임상적 지표를 효과적으로 반영하고 보고서 작성 및 CXR 판독 효율성을 향상시킵니다. 방사선 전문의를 대상으로 한 추가 분석 결과, 생성된 추론 과정은 높은 임상적 정확도를 보이며, 최종 예측에 대한 인과적 근거를 제공하여 성능 향상의 가능한 설명을 제시합니다. 이러한 결과는 명시적인 추론이 AI 지원 CXR 판독에서 모델 성능, 해석 가능성 및 임상적 유용성을 향상시킬 수 있음을 시사합니다.

Original Abstract

Chest X-rays (CXRs) are among the most frequently performed imaging examinations worldwide, yet rising imaging volumes increase radiologist workload and the risk of diagnostic errors. Although artificial intelligence (AI) systems have shown promise for CXR interpretation, most generate only final predictions, without making explicit how visual evidence is translated into radiographic findings and diagnostic predictions. We present CheXOne, a reasoning-enabled vision-language model for CXR interpretation. CheXOne jointly generates diagnostic predictions and explicit, clinically grounded reasoning traces that connect visual evidence, radiographic findings, and these predictions. The model is trained on 14.7 million instruction and reasoning samples curated from 30 public datasets spanning 36 CXR interpretation tasks, using a two-stage framework that combines instruction tuning with reinforcement learning to improve reasoning quality. We evaluate CheXOne in zero-shot settings across visual question answering, report generation, visual grounding and reasoning assessment, covering 17 evaluation settings. CheXOne outperforms existing medical and general-domain foundation models and achieves strong performance on independent public benchmarks. A clinical reader study demonstrates that CheXOne-drafted reports are comparable to or better than resident-written reports in 55% of cases, while effectively addressing clinical indications and enhancing both report writing and CXR interpretation efficiency. Further analyses involving radiologists reveal that the generated reasoning traces show high clinical factuality and provide causal support for the final predictions, offering a plausible explanation for the performance gains. These results suggest that explicit reasoning can improve model performance, interpretability and clinical utility in AI-assisted CXR interpretation.

1 Citations
1 Influential
13.5 Altmetric
70.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!