장기 다발성 골수종 기록을 활용한 능동적 임상 추론: 전문가 합의에 대한 후향적 평가
Agentic clinical reasoning over longitudinal myeloma records: a retrospective evaluation against expert consensus
다발성 골수종은 수 년에서 수십 년에 걸쳐 여러 치료 단계를 거치며 관리되며, 각 결정은 수십에서 수백 건의 이질적인 임상 문서에 분산된 누적 질병 이력을 기반으로 합니다. LLM 기반 시스템이 이러한 증거를 전문가 수준으로 종합할 수 있는지 여부는 아직 확립되지 않았습니다. 본 연구에서는 2001년부터 2026년까지 1차 의료 센터에서 치료받은 811명의 다발성 골수종 환자의 장기 임상 기록(44,962건의 문서, 1,334,677건의 검사 결과)에 대한 후향적 평가를 수행했으며, MIMIC-IV 데이터 세트를 사용하여 외부 검증을 진행했습니다. 능동적 추론 시스템을 단일 단계 검색 증강 생성(RAG), 반복 RAG, 전체 문맥 입력 방식과 비교하여, 48개의 템플릿에서 추출한 469개의 환자-질문 쌍을 사용하여 세 가지 수준의 복잡도를 평가했습니다. 참고 데이터는 4명의 종양 전문의의 이중 주석을 통해 작성되었으며, 숙련된 혈액학 전문의가 최종 검토를 담당했습니다. 반복 RAG와 전체 문맥 입력 방식은 75.4%와 75.8%로 유사한 수준에 도달했습니다(p = 1.00). 능동적 시스템은 79.6%의 일치도를 보였으며(95% CI 76.4-82.8), 이는 기준 모델보다 높았습니다(+3.8% 및 +4.2%; p = 0.006 및 0.007). 질문의 복잡도가 높을수록 성능 향상이 두드러졌으며, 특히 기준 충족 합성의 경우 +9.4% 향상을 보였습니다(p = 0.032). 또한, 기록의 길이가 길수록 성능 향상이 두드러졌으며, 상위 10%의 기록에서는 +13.5%의 향상을 보였습니다(n = 10). 시스템 오류율(12.2%)은 전문가 간 의견 불일치율(13.6%)과 유사했지만, 오류의 심각성 측면에서는 차이가 나타났습니다. 시스템 오류의 57.8%가 임상적으로 중요한 반면, 전문가 간 의견 불일치의 18.8%만이 임상적으로 중요했습니다. 능동적 추론은 공유된 최고 수준을 초과한 유일한 방법이었으며, 성능 향상은 가장 복잡한 질문과 가장 긴 기록에서 두드러졌습니다. 시스템 오류의 임상적 중요성을 고려할 때, 이러한 연구 결과가 환자에게 실질적인 이점을 가져다주기 위해서는 일상적인 의료 환경에서의 잠재적 평가가 필요합니다.
Multiple myeloma is managed through sequential lines of therapy over years to decades, with each decision depending on cumulative disease history distributed across dozens to hundreds of heterogeneous clinical documents. Whether LLM-based systems can synthesise this evidence at a level approaching expert agreement has not been established. A retrospective evaluation was conducted on longitudinal clinical records of 811 myeloma patients treated at a tertiary centre (2001-2026), covering 44,962 documents and 1,334,677 laboratory values, with external validation on MIMIC-IV. An agentic reasoning system was compared against single-pass retrieval-augmented generation (RAG), iterative RAG, and full-context input on 469 patient-question pairs from 48 templates at three complexity levels. Reference labels came from double annotation by four oncologists with senior haematologist adjudication. Iterative RAG and full-context input converged on a shared ceiling (75.4% vs 75.8%, p = 1.00). The agentic system reached 79.6% concordance (95% CI 76.4-82.8), exceeding both baselines (+3.8 and +4.2 pp; p = 0.006 and 0.007). Gains rose with question complexity, reaching +9.4 pp on criteria-based synthesis (p = 0.032), and with record length, reaching +13.5 pp in the top decile (n = 10). The system error rate (12.2%) was comparable to expert disagreement (13.6%), but severity was inverted: 57.8% of system errors were clinically significant versus 18.8% of expert disagreements. Agentic reasoning was the only approach to exceed the shared ceiling, with gains concentrated on the most complex questions and longest records. The greater clinical consequence of residual system errors indicates that prospective evaluation in routine care is required before these findings translate into patient benefit.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.