2604.24473v1 Apr 27, 2026 cs.AI

장기 다발성 골수종 기록을 활용한 능동적 임상 추론: 전문가 합의에 대한 후향적 평가

Agentic clinical reasoning over longitudinal myeloma records: a retrospective evaluation against expert consensus

Daniel Rueckert
Daniel Rueckert
Citations: 6
h-index: 1
K. Bressem
K. Bressem
Citations: 280
h-index: 5
Johannes Moll
Johannes Moll
Citations: 19
h-index: 2
Jannik Lubberstedt
Jannik Lubberstedt
Citations: 0
h-index: 0
Christoph Nuernbergk
Christoph Nuernbergk
Citations: 58
h-index: 2
J. Stroh
J. Stroh
Citations: 87
h-index: 4
Luisa Mertens
Luisa Mertens
Citations: 0
h-index: 0
A. Purcarea
A. Purcarea
Citations: 12
h-index: 2
Christopher Zirn
Christopher Zirn
Citations: 0
h-index: 0
Zeineb Benchaaben
Zeineb Benchaaben
Citations: 0
h-index: 0
Fabian Drexel
Fabian Drexel
Citations: 1
h-index: 1
Hartmut Hantze
Hartmut Hantze
Citations: 0
h-index: 0
A. Narayanan
A. Narayanan
Citations: 0
h-index: 0
Friedrich Puttkammer
Friedrich Puttkammer
Citations: 8
h-index: 1
Andrei Zhukov
Andrei Zhukov
Citations: 12
h-index: 2
Jacqueline Lammert
Jacqueline Lammert
Citations: 2
h-index: 1
S. Ziegelmayer
S. Ziegelmayer
Citations: 5
h-index: 2
Markus Graf
Markus Graf
Citations: 56
h-index: 5
Marion Hogner
Marion Hogner
Citations: 0
h-index: 0
Marcus R. Makowski
Marcus R. Makowski
Citations: 85
h-index: 5
Florian Bassermann
Florian Bassermann
Citations: 1
h-index: 1
Lisa C. Adams
Lisa C. Adams
Citations: 106
h-index: 4
K. Braitsch
K. Braitsch
Citations: 83
h-index: 5
Jiazhen Pan
Jiazhen Pan
Citations: 17
h-index: 3

다발성 골수종은 수 년에서 수십 년에 걸쳐 여러 치료 단계를 거치며 관리되며, 각 결정은 수십에서 수백 건의 이질적인 임상 문서에 분산된 누적 질병 이력을 기반으로 합니다. LLM 기반 시스템이 이러한 증거를 전문가 수준으로 종합할 수 있는지 여부는 아직 확립되지 않았습니다. 본 연구에서는 2001년부터 2026년까지 1차 의료 센터에서 치료받은 811명의 다발성 골수종 환자의 장기 임상 기록(44,962건의 문서, 1,334,677건의 검사 결과)에 대한 후향적 평가를 수행했으며, MIMIC-IV 데이터 세트를 사용하여 외부 검증을 진행했습니다. 능동적 추론 시스템을 단일 단계 검색 증강 생성(RAG), 반복 RAG, 전체 문맥 입력 방식과 비교하여, 48개의 템플릿에서 추출한 469개의 환자-질문 쌍을 사용하여 세 가지 수준의 복잡도를 평가했습니다. 참고 데이터는 4명의 종양 전문의의 이중 주석을 통해 작성되었으며, 숙련된 혈액학 전문의가 최종 검토를 담당했습니다. 반복 RAG와 전체 문맥 입력 방식은 75.4%와 75.8%로 유사한 수준에 도달했습니다(p = 1.00). 능동적 시스템은 79.6%의 일치도를 보였으며(95% CI 76.4-82.8), 이는 기준 모델보다 높았습니다(+3.8% 및 +4.2%; p = 0.006 및 0.007). 질문의 복잡도가 높을수록 성능 향상이 두드러졌으며, 특히 기준 충족 합성의 경우 +9.4% 향상을 보였습니다(p = 0.032). 또한, 기록의 길이가 길수록 성능 향상이 두드러졌으며, 상위 10%의 기록에서는 +13.5%의 향상을 보였습니다(n = 10). 시스템 오류율(12.2%)은 전문가 간 의견 불일치율(13.6%)과 유사했지만, 오류의 심각성 측면에서는 차이가 나타났습니다. 시스템 오류의 57.8%가 임상적으로 중요한 반면, 전문가 간 의견 불일치의 18.8%만이 임상적으로 중요했습니다. 능동적 추론은 공유된 최고 수준을 초과한 유일한 방법이었으며, 성능 향상은 가장 복잡한 질문과 가장 긴 기록에서 두드러졌습니다. 시스템 오류의 임상적 중요성을 고려할 때, 이러한 연구 결과가 환자에게 실질적인 이점을 가져다주기 위해서는 일상적인 의료 환경에서의 잠재적 평가가 필요합니다.

Original Abstract

Multiple myeloma is managed through sequential lines of therapy over years to decades, with each decision depending on cumulative disease history distributed across dozens to hundreds of heterogeneous clinical documents. Whether LLM-based systems can synthesise this evidence at a level approaching expert agreement has not been established. A retrospective evaluation was conducted on longitudinal clinical records of 811 myeloma patients treated at a tertiary centre (2001-2026), covering 44,962 documents and 1,334,677 laboratory values, with external validation on MIMIC-IV. An agentic reasoning system was compared against single-pass retrieval-augmented generation (RAG), iterative RAG, and full-context input on 469 patient-question pairs from 48 templates at three complexity levels. Reference labels came from double annotation by four oncologists with senior haematologist adjudication. Iterative RAG and full-context input converged on a shared ceiling (75.4% vs 75.8%, p = 1.00). The agentic system reached 79.6% concordance (95% CI 76.4-82.8), exceeding both baselines (+3.8 and +4.2 pp; p = 0.006 and 0.007). Gains rose with question complexity, reaching +9.4 pp on criteria-based synthesis (p = 0.032), and with record length, reaching +13.5 pp in the top decile (n = 10). The system error rate (12.2%) was comparable to expert disagreement (13.6%), but severity was inverted: 57.8% of system errors were clinically significant versus 18.8% of expert disagreements. Agentic reasoning was the only approach to exceed the shared ceiling, with gains concentrated on the most complex questions and longest records. The greater clinical consequence of residual system errors indicates that prospective evaluation in routine care is required before these findings translate into patient benefit.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!