MentalSeek-Dx: 실제 정신과 진단을 위한 점진적 가설 연역적 추론
MentalSeek-Dx: Towards Progressive Hypothetico-Deductive Reasoning for Real-world Psychiatric Diagnosis
정신 건강 장애는 전 세계적으로 급증하는 공중 보건 과제입니다. 대규모 언어 모델(LLM)이 정신과적 평가에서 잠재력을 보여주었지만, 생태학적 타당성과 세밀한 진단 감독이 결여된 벤치마크로 인해 그 임상적 유용성은 심각하게 제한됩니다. 이러한 격차를 해소하기 위해, 본 논문에서는 실제 임상 환경 내의 장애 수준 정신과 진단 전용 최초의 벤치마크인 MentalDx Bench를 소개합니다. ICD-11 지침에 따라 정신과 전문의가 주석을 단 712건의 비식별화된 전자 건강 기록으로 구성된 이 벤치마크는 16개 진단 범주에 걸친 76개 장애를 포괄합니다. 18개 LLM을 평가한 결과, 결정적인 '패러다임 불일치'가 드러났습니다. 포괄적인 진단 분류에서는 강력한 성능을 보였으나 장애 수준 진단에서는 체계적인 실패를 보였으며, 이는 패턴 기반 모델링과 임상적 가설 연역적 추론 간의 간극을 부각시킵니다. 이에 대응하여, 지도된 궤적 구축 및 커리큘럼 기반 강화 학습을 통해 이러한 임상 추론 과정을 내재화하도록 훈련된 의료 특화 LLM인 MentalSeek-Dx를 제안합니다. MentalDx Bench에서의 실험을 통해 MentalSeek-Dx는 14B 파라미터만으로 최첨단(SOTA) 성능을 달성함을 입증하였으며, 신뢰할 수 있는 정신과 진단을 위한 임상적 근거를 갖춘 프레임워크를 확립했습니다.
Mental health disorders represent a burgeoning global public health challenge. While Large Language Models (LLMs) have demonstrated potential in psychiatric assessment, their clinical utility is severely constrained by benchmarks that lack ecological validity and fine-grained diagnostic supervision. To bridge this gap, we introduce \textbf{MentalDx Bench}, the first benchmark dedicated to disorder-level psychiatric diagnosis within real-world clinical settings. Comprising 712 de-identified electronic health records annotated by board-certified psychiatrists under ICD-11 guidelines, the benchmark covers 76 disorders across 16 diagnostic categories. Evaluation of 18 LLMs reveals a critical \textit{paradigm misalignment}: strong performance at coarse diagnostic categorization contrasts with systematic failure at disorder-level diagnosis, underscoring a gap between pattern-based modeling and clinical hypothetico-deductive reasoning. In response, we propose \textbf{MentalSeek-Dx}, a medical-specialized LLM trained to internalize this clinical reasoning process through supervised trajectory construction and curriculum-based reinforcement learning. Experiments on MentalDx Bench demonstrate that MentalSeek-Dx achieves state-of-the-art (SOTA) performance with only 14B parameters, establishing a clinically grounded framework for reliable psychiatric diagnosis.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.