에이전트 기반 검색 증강 추론이 모델 변동성 하에서 방사선학 질문 응답의 집단적 신뢰성을 변화시키는 방식
Agentic retrieval-augmented reasoning reshapes collective reliability under model variability in radiology question answering
에이전트 기반 검색 증강 추론 파이프라인은 대규모 언어 모델(LLM)이 임상 의사 결정 지원에서 외부 증거를 통합하는 방식을 구조화하는 데 점점 더 많이 사용되고 있습니다. 이러한 시스템은 반복적으로 선별된 전문 지식을 검색하고, 이를 구조화된 보고서로 합성한 후, 답변을 선택합니다. 이러한 파이프라인은 성능을 향상시킬 수 있지만, 모델 변동성 하에서 신뢰성에 미치는 영향은 아직 명확하지 않습니다. 실제 배포 환경에서 다양한 모델은 정확도로 측정할 수 없는 방식으로 오류를 일치시키거나, 분산시키거나, 동기화할 수 있습니다. 본 연구에서는 34개의 LLM을 사용하여 169개의 전문가가 선별한 공개 방사선학 질문에 대한 성능을 평가했습니다. 각 모델은 방사선학 전문 지식에서 파생된 동일한 구조화된 증거 보고서를 제공받는 방사선학 특화 다단계 에이전트 기반 검색 조건 하에서, 제로샷 추론과 비교했습니다. 에이전트 기반 추론은 모델 간 의사 결정 분산을 줄였으며(중앙값 엔트로피 0.48 vs. 0.13), 모델 전체의 정확성 강도를 높였습니다(평균 0.74 vs. 0.81). 다수결 합의 또한 전반적으로 증가했습니다(P<0.001). 제로샷 전략과 에이전트 기반 전략 모두에서 합의 강도와 정확성 간의 상관관계가 유지되었습니다(제로샷의 경우 {ho}=0.88, 에이전트 기반의 경우 {ho}=0.87), 하지만 높은 합의가 항상 정확성을 보장하는 것은 아닙니다. 응답의 상세 정도는 정확성과 유의미한 연관성을 보이지 않았습니다. 572개의 잘못된 응답 중 72%는 중간 또는 높은 수준의 임상적 심각도와 관련이 있었지만, 평가자 간의 일치도는 낮았습니다( {appa}=0.02). 따라서 에이전트 기반 검색은 보다 집중된 의사 결정 분포, 더 강력한 합의, 그리고 모델 간의 정확성 강도 향상과 관련이 있었습니다. 이러한 결과는 에이전트 시스템을 정확도 또는 합의만으로 평가하는 것이 항상 충분하지 않으며, 모델 변동성 하에서 신뢰성을 특성화하기 위해서는 안정성, 모델 간의 강건성, 그리고 잠재적인 임상적 영향에 대한 보완적인 분석이 필요하다는 것을 시사합니다.
Agentic retrieval-augmented reasoning pipelines are increasingly used to structure how large language models (LLMs) incorporate external evidence in clinical decision support. These systems iteratively retrieve curated domain knowledge and synthesize it into structured reports before answer selection. Although such pipelines can improve performance, their impact on reliability under model variability remains unclear. In real-world deployment, heterogeneous models may align, diverge, or synchronize errors in ways not captured by accuracy. We evaluated 34 LLMs on 169 expert-curated publicly available radiology questions, comparing zero-shot inference with a radiology-specific multi-step agentic retrieval condition in which all models received identical structured evidence reports derived from curated radiology knowledge. Agentic inference reduced inter-model decision dispersion (median entropy 0.48 vs. 0.13) and increased robustness of correctness across models (mean 0.74 vs. 0.81). Majority consensus also increased overall (P<0.001). Consensus strength and robust correctness remained correlated under both strategies (\r{ho}=0.88 for zero-shot; \r{ho}=0.87 for agentic), although high agreement did not guarantee correctness. Response verbosity showed no meaningful association with correctness. Among 572 incorrect outputs, 72% were associated with moderate or high clinically assessed severity, although inter-rater agreement was low (\k{appa}=0.02). Agentic retrieval therefore was associated with more concentrated decision distributions, stronger consensus, and higher cross-model robustness of correctness. These findings suggest that evaluating agentic systems through accuracy or agreement alone may not always be sufficient, and that complementary analyses of stability, cross-model robustness, and potential clinical impact are needed to characterize reliability under model variability.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.