AD-CARE: 지침 기반, 모달리티 불문 LLM 에이전트 - 다중 코호트 평가, 공정성 분석 및 독자 연구를 통한 실제 알츠하이머병 진단
AD-CARE: A Guideline-grounded, Modality-agnostic LLM Agent for Real-world Alzheimer's Disease Diagnosis with Multi-cohort Assessment, Fairness Analysis, and Reader Study
알츠하이머병(AD)은 고령화 사회에서 점점 더 심각한 건강 문제로, 정확하고 신속한 진단은 개인과 사회 전체의 부담을 줄이는 데 필수적입니다. 그러나 실제 알츠하이머병 진단은 불완전하고 이질적인 다중 데이터, 그리고 다양한 기관 및 환자 특성으로 인해 어려움을 겪습니다. 대규모 언어 모델(LLM)은 생의학 분야에서 유망한 가능성을 보여주었지만, 알츠하이머병 분야에서는 주로 질병과 관련된 특정 질문에 대한 답변으로 활용되어 왔으며, 임상적 의사 결정을 지원하는 종합적인 진단 보고서를 생성하는 데는 한계가 있었습니다. 본 연구에서는 AD-CARE를 소개하며, LLM의 활용 범위를 확장하여 임상 의사 결정을 지원하고자 합니다. AD-CARE는 누락된 모달리티를 추정하지 않고, 불완전하고 이질적인 입력 데이터를 기반으로 지침에 따라 진단을 수행하는 모달리티 불문 에이전트입니다. AD-CARE는 전문적인 진단 도구를 동적으로 통합하고, 임상 지침을 LLM 기반 추론에 통합하여 투명하고 보고서 형태의 결과를 생성하며, 실제 임상 워크플로우에 부합합니다. 6개의 코호트(총 10,303건)에 대해 AD-CARE는 84.9%의 진단 정확도를 달성했으며, 기존 방법보다 4.2%에서 13.7%의 상대적인 성능 향상을 보였습니다. 코호트 간 차이가 존재하더라도, 데이터셋별 정확도는 80.4%에서 98.8%로 견고하게 유지되었으며, 에이전트는 모든 기준 모델보다 일관되게 우수한 성능을 나타냈습니다. AD-CARE는 인종 및 연령 하위 그룹 간의 성능 격차를 줄여, 네 가지 지표의 평균 분산을 각각 21%에서 68% 및 28%에서 51%로 감소시켰습니다. 통제된 독자 연구에서는 AD-CARE가 신경과 및 영상의학과 전문의의 정확도를 각각 6%에서 11% 향상시키고, 의사 결정 시간을 50% 이상 단축했습니다. 본 프레임워크는 8개의 기본 LLM보다 2.29%에서 10.66%의 절대적인 성능 향상을 가져왔으며, 이들의 성능을 균일하게 만들었습니다. 이러한 결과는 AD-CARE가 확장 가능하고 실제 적용 가능한 프레임워크이며, 알츠하이머병 진단을 위한 다중 데이터 기반 의사 결정 지원 시스템에 통합될 수 있음을 보여줍니다.
Alzheimer's disease (AD) is a growing global health challenge as populations age, and timely, accurate diagnosis is essential to reduce individual and societal burden. However, real-world AD assessment is hampered by incomplete, heterogeneous multimodal data and variability across sites and patient demographics. Although large language models (LLMs) have shown promise in biomedicine, their use in AD has largely been confined to answering narrow, disease-specific questions rather than generating comprehensive diagnostic reports that support clinical decision-making. Here we expand LLM capabilities for clinical decision support by introducing AD-CARE, a modality-agnostic agent that performs guideline-grounded diagnostic assessment from incomplete, heterogeneous inputs without imputing missing modalities. By dynamically orchestrating specialized diagnostic tools and embedding clinical guidelines into LLM-driven reasoning, AD-CARE generates transparent, report-style outputs aligned with real-world clinical workflows. Across six cohorts comprising 10,303 cases, AD-CARE achieved 84.9% diagnostic accuracy, delivering 4.2%-13.7% relative improvements over baseline methods. Despite cohort-level differences, dataset-specific accuracies remain robust (80.4%-98.8%), and the agent consistently outperforms all baselines. AD-CARE reduced performance disparities across racial and age subgroups, decreasing the average dispersion of four metrics by 21%-68% and 28%-51%, respectively. In a controlled reader study, the agent improved neurologist and radiologist accuracy by 6%-11% and more than halved decision time. The framework yielded 2.29%-10.66% absolute gains over eight backbone LLMs and converges their performance. These results show that AD-CARE is a scalable, practically deployable framework that can be integrated into routine clinical workflows for multimodal decision support in AD.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.