EvoClinician: 테스트 타임 진화 학습을 통한 다중 턴 의료 진단용 자가 진화 에이전트
EvoClinician: A Self-Evolving Agent for Multi-Turn Medical Diagnosis via Test-Time Evolutionary Learning
기존의 의료 AI는 환자의 전체 기록을 바탕으로 진단하는 비현실적인 '원샷(one-shot)' 모델로 작동합니다. 그러나 실제 진단은 임상의가 비용과 시간을 관리하면서 전략적으로 정보를 수집하기 위해 순차적으로 질문하고 검사를 지시하는 반복적인 탐구 과정입니다. 이를 해결하기 위해 본 논문에서는 먼저 에이전트의 다중 턴 진단 수행 능력을 평가하기 위해 설계된 새로운 벤치마크인 Med-Inquire를 제안합니다. 실제 임상 사례 데이터세트를 기반으로 구축된 Med-Inquire는 전문화된 환자(Patient) 및 검사(Examination) 에이전트 뒤에 전체 환자 기록을 숨겨 진단 과정을 시뮬레이션합니다. 이들은 에이전트가 정보를 하나씩 수집하기 위해 주도적으로 질문하고 검사를 지시하도록 강제합니다. Med-Inquire가 제시하는 과제를 해결하기 위해, 우리는 테스트 타임에 효율적인 진단 전략을 학습하는 자가 진화 에이전트인 EvoClinician을 소개합니다. 이 에이전트의 핵심은 '진단-평가-진화(Diagnose-Grade-Evolve)' 루프입니다. 액터(Actor) 에이전트가 진단을 시도하면, 프로세스 평가(Process Grader) 에이전트가 임상적 수확과 자원 효율성을 기준으로 각 행동을 평가하여 신용 할당(credit assignment)을 수행하고, 마지막으로 진화(Evolver) 에이전트가 이 피드백을 사용하여 프롬프트와 메모리를 진화시킴으로써 액터의 전략을 업데이트합니다. 실험 결과, EvoClinician은 지속 학습 베이스라인 및 메모리 에이전트와 같은 다른 자가 진화 에이전트보다 뛰어난 성능을 보였습니다. 코드는 https://github.com/yf-he/EvoClinician 에서 확인할 수 있습니다.
Prevailing medical AI operates on an unrealistic ''one-shot'' model, diagnosing from a complete patient file. However, real-world diagnosis is an iterative inquiry where Clinicians sequentially ask questions and order tests to strategically gather information while managing cost and time. To address this, we first propose Med-Inquire, a new benchmark designed to evaluate an agent's ability to perform multi-turn diagnosis. Built upon a dataset of real-world clinical cases, Med-Inquire simulates the diagnostic process by hiding a complete patient file behind specialized Patient and Examination agents. They force the agent to proactively ask questions and order tests to gather information piece by piece. To tackle the challenges posed by Med-Inquire, we then introduce EvoClinician, a self-evolving agent that learns efficient diagnostic strategies at test time. Its core is a ''Diagnose-Grade-Evolve'' loop: an Actor agent attempts a diagnosis; a Process Grader agent performs credit assignment by evaluating each action for both clinical yield and resource efficiency; finally, an Evolver agent uses this feedback to update the Actor's strategy by evolving its prompt and memory. Our experiments show EvoClinician outperforms continual learning baselines and other self-evolving agents like memory agents. The code is available at https://github.com/yf-he/EvoClinician
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.