SymptomAI: 일상생활 속 증상 평가를 위한 대화형 인공지능 에이전트 개발
SymptomAI: Towards a Conversational AI Agent for Everyday Symptom Assessment
언어 모델은 선별된 의학 사례 연구 및 시나리오에서 진단 평가 능력이 뛰어나며, 임상 전문가와 동등하거나 더 나은 성능을 보입니다. 그러나 기존 연구는 풍부한 맥락을 가진 복잡한 시나리오에 집중하여, 실제 생활에서 증상을 보고하는 환자들에게 이러한 시스템이 어떻게 작동하는지에 대한 결론을 내리기는 어렵습니다. 본 연구에서는 Fitbit 앱을 통해 13,917명의 참가자를 대상으로, 5개의 인공지능 에이전트와의 상호 작용을 무작위로 배정하는 연구를 진행하여, 종단 간 환자 인터뷰 및 감별 진단(DDx)을 위한 대화형 인공지능 에이전트인 SymptomAI를 개발했습니다. 이 데이터는 다양한 의사소통 방식과 실제 인구에서 나타나는 질병 분포를 반영합니다. 1,228명의 참가자는 임상의가 제공한 진단을 보고했으며, 이 중 517건은 250시간 이상의 검토 과정을 거친 임상의 패널에 의해 추가적으로 평가되었습니다. SymptomAI의 DDx는 동일한 대화 내용을 기반으로 독립적인 임상의의 DDx보다 유의미하게 정확도가 높았습니다 (OR = 2.47, p < 0.001). 또한, 진단을 내리기 전에 추가적인 증상 정보를 수집하는 헌신적인 증상 인터뷰를 수행하는 에이전트 전략은 기본 사용자 중심 대화보다 훨씬 더 나은 성능을 보였습니다 (p < 0.001). 일반 미국 인구 패널에서 추출한 1,509건의 대화에 대한 보조 분석 결과, 이러한 결과는 웨어러블 기기 사용자에게만 국한되지 않고 일반화될 수 있음을 확인했습니다. SymptomAI의 진단 결과를 레이블로 사용하여 13,917명의 참가자 데이터를 분석하여, 약 400가지의 고유한 질병에 대한 50만 일 이상의 웨어러블 기기 측정 데이터를 분석했습니다. 분석 결과, 급성 감염과 생리적 변화 간에 뚜렷한 연관성이 확인되었습니다 (예: 인플루엔자의 경우 OR > 7). 본 연구는 자체 보고된 데이터를 기반으로 수행되었지만, 사용자 중심의 증상 논의 방식보다 헌신적이고 완전한 증상 인터뷰의 장점을 보여줍니다. 이는 대부분의 소비자용 LLM의 기본 방식입니다.
Language models excel at diagnostic assessments on currated medical case-studies and vignettes, performing on par with, or better than, clinical professionals. However, existing studies focus on complex scenarios with rich context making it difficult to draw conclusions about how these systems perform for patients reporting symptoms in everyday life. We deployed SymptomAI, a set of conversational AI agents for end-to-end patient interviewing and differential diagnosis (DDx), via the Fitbit app in a study that randomized participants (N=13,917) to interact with five AI agents. This corpus captures diverse communication and a realistic distribution of illnesses from a real world population. A subset of 1,228 participants reported a clinician-provided diagnosis, and 517 of these were further evaluated by a panel of clinicians during over 250 hours of annotation. SymptomAI DDx were significantly more accurate (OR = 2.47, p < 0.001) than those from independent clinicians given the same dialogue in a blinded randomized comparison. Moreover, agentic strategies which conduct a dedicated symptom interview that elicit additional symptom information before providing a diagnosis, perform substantially better than baseline, user-guided conversations (p < 0.001). An auxiliary analysis on 1,509 conversations from a general US population panel validated that these results generalize beyond wearable device users. We used SymptomAI diagnoses as labels for all 13,917 participants to analyze over 500,000 days of wearable metrics across nearly 400 unique conditions. We identified strong associations between acute infections and physiological shifts (e.g., OR > 7 for influenza). While limited by self-reported ground truth, these results demonstrate the benefits of a dedicated and complete symptom interview compared to a user-guided symptom discussion, which is the default of most consumer LLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.