CheXthought: 흉부 X-ray 해석을 위한 글로벌 멀티모달 데이터셋 - 임상적 사고 과정 추론 및 시각적 주의 집중 분석
CheXthought: A global multimodal dataset of clinical chain-of-thought reasoning and visual attention for chest X-ray interpretation
흉부 X-ray 해석은 의학 분야에서 가장 흔하게 수행되는 진단 작업 중 하나이며, 인공지능 개발의 주요 목표입니다. 그러나 현재의 대부분의 시각-언어 모델은 쌍으로 연결된 이미지와 보고서 데이터셋으로 학습되지만, 임상적 추론의 기반이 되는 인지 과정 및 시각적 주의 집중은 고려되지 않습니다. 본 연구에서는 501명의 방사선 전문의가 71개국에서 촬영한 50,312건의 흉부 X-ray 이미지에 대한 103,592개의 사고 과정 추론 데이터와 6,609,082개의 동기화된 시각적 주의 집중 주석을 포함하는 글로벌 멀티모달 데이터셋인 CheXthought를 제시합니다. 분석 결과, 전문가들은 다양한 시각 검색 전략을 활용하고, 임상적 맥락을 통합하며, 불확실성을 표현하는 임상적 추론 패턴을 보이는 것으로 나타났습니다. CheXthought는 다음과 같은 네 가지 측면에서 임상적 유용성을 입증합니다. 첫째, CheXthought를 활용한 추론은 사실 정확도 및 공간적 정밀성 측면에서 최첨단 시각-언어 모델의 사고 과정 추론보다 우수한 성능을 보입니다. 둘째, 추론 시 힌트로 사용되는 시각적 주의 집중 데이터는 놓친 진단을 회복하고 환각 현상을 크게 줄입니다. 셋째, CheXthought 데이터로 학습된 시각-언어 모델은 병리 분류, 시각적 충실도, 시간적 추론 및 불확실성 표현 능력이 크게 향상됩니다. 넷째, CheXthought의 다중 판독자 주석을 활용하여 이미지에서 인간-인간 및 인간-AI 간의 의견 불일치를 직접 예측함으로써, 사례의 난이도, 불확실성 및 모델의 신뢰성을 투명하게 전달할 수 있습니다. 이러한 결과는 CheXthought를 멀티모달 임상적 추론 및 보다 투명하고 해석 가능한 시각-언어 모델 개발을 위한 중요한 자원으로 확립합니다.
Chest X-ray interpretation is one of the most frequently performed diagnostic tasks in medicine and a primary target for AI development, yet current vision-language models are primarily trained on datasets of paired images and reports, not the cognitive processes and visual attention that underlie clinical reasoning. Here, we present CheXthought, a global, multimodal resource containing 103,592 chain-of-thought reasoning traces and 6,609,082 synchronized visual attention annotations across 50,312 multi-read chest X-rays from 501 radiologists in 71 countries. Our analysis reveals clinical reasoning patterns in how experts deploy distinct visual search strategies, integrate clinical context, and communicate uncertainty. We demonstrate the clinical utility of CheXthought across four dimensions. First, CheXthought reasoning significantly outperforms state-of-the-art vision-language model chain-of-thought in factual accuracy and spatial grounding. Second, visual attention data used as an inference-time hint recovers missed findings and significantly reduces hallucinations. Third, vision-language models trained on CheXthought data achieve significantly stronger pathology classification, visual faithfulness, temporal reasoning and uncertainty communication. Fourth, leveraging CheXthought's multi-reader annotations, we predict both human-human and human-AI disagreement directly from an image, enabling transparent communication of case difficulty, uncertainty and model reliability. These findings establish CheXthought as a resource for advancing multimodal clinical reasoning and the development of more transparent, interpretable vision-language models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.