MedAction: 능동적인 다중 턴 임상 진단 LLM으로 나아가기
MedAction: Towards Active Multi-turn Clinical Diagnostic LLMs
대부분의 기존 LLM 진단은 전체 환자 정보를 미리 제공하는 정적인 단일 턴 환경에서 평가되는데, 이는 실제 임상 현장을 지나치게 단순화한 것입니다. 본 연구에서는 능동적인 진단을 다룹니다. 능동적인 진단은 초기 관찰부터 시작하여 검사를 지시하고, 결과를 해석하며, 여러 단계에 걸쳐 감별 진단을 갱신하는 실제 임상 과정입니다. 체계적인 분석을 통해 현재 LLM에서 발생하는 세 가지 주요 오류를 식별했습니다. 이는 근거 없는 검사 지시, 신뢰할 수 없는 진단 업데이트, 그리고 다중 턴 과정에서의 일관성 저하입니다. 이러한 오류들은 기존의 의료 학습 데이터가 모델에게 완전한 정보로부터 추론하는 방법을 가르치지만, 변화하는 부분적인 증거 하에서 행동하는 방법을 가르치지 못한다는 근본적인 결함을 드러냅니다. 이러한 격차를 해소하기 위해, 우리는 LLM과 환경 간의 상호 작용을 통해 다양한 고품질의 다중 턴 진단 경로를 합성하는 트리 구조의 증류 파이프라인인 MedAction을 소개합니다. 경로의 품질을 평가하기 위해, 질병 경로 일관성(Disease Trajectory Consistency, DTC) 지표(모델의 가설이 올바른 진단으로 수렴하는지 추적)와 추론-행동 일관성(Reasoning-Action Consistency, RAC) 지표(업데이트된 믿음이 수집된 증거에 의해 뒷받침되는지 확인)라는 두 가지 지식 그래프 기반 지표를 제안합니다. 이 파이프라인을 사용하여 2,896개의 PMC 사례에서 추출된 32,681개의 경로로 구성된 MedAction-32K 데이터셋을 구축했습니다. MedAction-32K 데이터셋으로 8B 모델을 미세 조정하면 오픈 소스 모델 중에서 MedR-Bench와 자체적으로 구축한 MedAction-300-Hard 벤치마크에서 최고 성능을 달성하며, 오픈 소스 의료 LLM의 성능 한계를 확장합니다.
Most existing LLM diagnoses are evaluated on static, single-turn settings where complete patient information is provided upfront, an oversimplification of real clinical practice. We study active diagnosis: the real-life clinical process of starting from initial observation, ordering tests, interpreting results, and updating a differential diagnosis across multiple turns. Through systematic analysis, we identify three recurring failure modes in current LLMs: ungrounded test ordering, unreliable diagnostic update, and degraded multi-turn coherence. Together, these failures reveal a core deficit: existing medical training data teaches models to reason from complete information but not to act under evolving, partial evidence. To address this gap, we introduce MedAction, a tree-structured distillation pipeline that synthesizes diverse and high-quality multi-turn diagnostic trajectories via LLM-environment interaction. We propose two knowledge-graph-grounded metrics to filter trajectory quality: Disease Trajectory Consistency (DTC), which tracks whether the model's hypothesis converges toward the correct diagnosis, and Reasoning-Action Consistency (RAC), which verifies that belief updates are driven by gathered evidence. Using this pipeline, we construct MedAction-32K, a dataset of 32,681 trajectories from 2,896 PMC cases. Fine-tuning an 8B model on MedAction-32K achieves state-of-the-art performance among open-source models on both MedR-Bench and our curated MedAction-300-Hard benchmark, pushing the edge for open-source medical LLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.