해석 가능한 다중 모달 우울증 감지를 위한 동적 요약 생성
Dynamic Summary Generation for Interpretable Multimodal Depression Detection
우울증은 여전히 진단 및 치료가 부족한 경우가 많으며, 이는 낙인과 주관적인 증상 평가가 신뢰할 수 있는 선별을 방해하기 때문입니다. 이러한 문제를 해결하기 위해, 본 연구에서는 대규모 언어 모델(LLM)을 활용하여 정확하고 해석 가능한 감지를 위한 거친 단계부터 세밀한 단계까지의 다단계 프레임워크를 제안합니다. 이 파이프라인은 이진 선별, 5단계 심각도 분류, 그리고 연속 회귀 분석을 수행합니다. 각 단계에서 LLM은 점진적으로 풍부한 임상 요약을 생성하며, 이 요약은 텍스트, 오디오, 비디오 특징을 통합하는 다중 모달 융합 모듈을 안내하여 투명한 근거를 가진 예측을 제공합니다. 시스템은 이후 모든 요약을 통합하여 간결하고 사람이 읽기 쉬운 평가 보고서를 생성합니다. E-DAIC 및 CMDC 데이터 세트에서의 실험 결과는 정확도와 해석 가능성 모두에서 최첨단 모델보다 상당한 성능 향상을 보였습니다.
Depression remains widely underdiagnosed and undertreated because stigma and subjective symptom ratings hinder reliable screening. To address this challenge, we propose a coarse-to-fine, multi-stage framework that leverages large language models (LLMs) for accurate and interpretable detection. The pipeline performs binary screening, five-class severity classification, and continuous regression. At each stage, an LLM produces progressively richer clinical summaries that guide a multimodal fusion module integrating text, audio, and video features, yielding predictions with transparent rationale. The system then consolidates all summaries into a concise, human-readable assessment report. Experiments on the E-DAIC and CMDC datasets show significant improvements over state-of-the-art baselines in both accuracy and interpretability.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.