2602.23276v1 Feb 26, 2026 cs.AI

CXReasonAgent: 흉부 X-ray 영상에 대한 증거 기반 진단 추론 에이전트

CXReasonAgent: Evidence-Grounded Diagnostic Reasoning Agent for Chest X-rays

HyunGyung Lee
HyunGyung Lee
Citations: 444
h-index: 6
Hangyul Yoon
Hangyul Yoon
Citations: 86
h-index: 4
Edward Choi
Edward Choi
Citations: 8
h-index: 2

흉부 X-ray는 흉부 진단에 중요한 역할을 하며, 그 해석은 본질적으로 다단계적이고 증거 기반 추론을 필요로 합니다. 그러나 대규모 시각-언어 모델(LVLM)은 종종 진단 증거에 충실하지 않은 답변을 생성하며, 검증을 위한 시각적 증거를 제한적으로 제공합니다. 또한 새로운 진단 작업을 지원하기 위해 비용이 많이 드는 재학습이 필요하여 임상 환경에서의 신뢰성과 적응성을 제한합니다. 이러한 한계를 해결하기 위해, 우리는 대규모 언어 모델(LLM)과 임상적으로 검증된 진단 도구를 통합하여 이미지에서 파생된 진단 및 시각적 증거를 활용하는 증거 기반 진단 추론을 수행하는 진단 에이전트인 CXReasonAgent를 제안합니다. 이러한 기능을 평가하기 위해, 우리는 12가지 진단 작업에 걸쳐 1,946개의 대화로 구성된 다중 턴 대화 벤치마크인 CXReasonDial을 소개하고, CXReasonAgent가 충실하게 증거 기반 답변을 생성하여 LVLM보다 더 신뢰할 수 있고 검증 가능한 진단 추론을 가능하게 한다는 것을 보여줍니다. 이러한 결과는 특히 안전이 중요한 임상 환경에서 임상적으로 검증된 진단 도구의 통합이 중요하다는 것을 강조합니다.

Original Abstract

Chest X-ray plays a central role in thoracic diagnosis, and its interpretation inherently requires multi-step, evidence-grounded reasoning. However, large vision-language models (LVLMs) often generate plausible responses that are not faithfully grounded in diagnostic evidence and provide limited visual evidence for verification, while also requiring costly retraining to support new diagnostic tasks, limiting their reliability and adaptability in clinical settings. To address these limitations, we present CXReasonAgent, a diagnostic agent that integrates a large language model (LLM) with clinically grounded diagnostic tools to perform evidence-grounded diagnostic reasoning using image-derived diagnostic and visual evidence. To evaluate these capabilities, we introduce CXReasonDial, a multi-turn dialogue benchmark with 1,946 dialogues across 12 diagnostic tasks, and show that CXReasonAgent produces faithfully grounded responses, enabling more reliable and verifiable diagnostic reasoning than LVLMs. These findings highlight the importance of integrating clinically grounded diagnostic tools, particularly in safety-critical clinical settings.

0 Citations
0 Influential
3 Altmetric
15.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!