2604.25840v1 Apr 28, 2026 cs.CL

PSI-Bench: 임상적 근거를 기반으로 한 해석 가능한 우울증 환자 시뮬레이터 평가를 향하여

PSI-Bench: Towards Clinically Grounded and Interpretable Evaluation of Depression Patient Simulators

Shuhaib Mehri
Shuhaib Mehri
Citations: 50
h-index: 4
Dilek Hakkani-Tur
Dilek Hakkani-Tur
Citations: 574
h-index: 11
N. Hoang
N. Hoang
Citations: 84
h-index: 3
Tse-An Hsu
Tse-An Hsu
Citations: 8
h-index: 1
Yi-Jyun Sun
Yi-Jyun Sun
Citations: 12
h-index: 2
Q. Truong
Q. Truong
Citations: 308
h-index: 4
Khoa D. Doan
Khoa D. Doan
Citations: 98
h-index: 4

환자 시뮬레이터는 복잡하고 민감한 환자와의 상호작용에 대한 확장 가능한 교육 기회를 제공함으로써 정신 건강 훈련에서 주목받고 있습니다. 특히 우울증 환자 시뮬레이션은 안전 제약과 높은 환자 변동성으로 인해 어려움을 겪으며, 다양한 실제 환자 행동을 포착하는 시뮬레이터의 필요성을 강조합니다. 그러나 기존의 평가는 명확하게 정의되지 않은 프롬프트를 사용하는 LLM 평가자를 주로 사용하며, 행동 다양성을 평가하지 못합니다. 본 연구에서는 PSI-Bench라는 자동 평가 프레임워크를 소개합니다. PSI-Bench는 턴, 대화, 그리고 전체 모집단 수준에서 우울증 환자 시뮬레이터의 행동에 대한 해석 가능하고 임상적으로 타당한 진단을 제공합니다. PSI-Bench를 사용하여 두 가지 시뮬레이터 프레임워크에서 7개의 LLM을 벤치마킹한 결과, 시뮬레이터가 지나치게 길고 어휘적으로 다양한 응답을 생성하며, 변동성이 감소하고, 감정을 너무 빨리 해소하며, 획일적인 부정적-긍정적 방향으로 진행되는 것을 확인했습니다. 또한, 모델 크기보다 시뮬레이션 프레임워크가 충실도에 더 큰 영향을 미치는 것을 보여줍니다. 인간 연구 결과는 본 벤치마크가 전문가 판단과 높은 일관성을 갖는다는 것을 입증합니다. 본 연구는 현재 우울증 환자 시뮬레이터의 주요 한계를 밝히고, 향후 시뮬레이터 설계 및 평가를 위한 해석 가능하고 확장 가능한 벤치마크를 제공합니다.

Original Abstract

Patient simulators are gaining traction in mental health training by providing scalable exposure to complex and sensitive patient interactions. Simulating depressed patients is particularly challenging, as safety constraints and high patient variability complicate simulations and underscore the need for simulators that capture diverse and realistic patient behaviors. However, existing evaluations heavily rely on LLM-judges with poorly specified prompts and do not assess behavioral diversity. We introduce PSI-Bench, an automatic evaluation framework that provides interpretable, clinically grounded diagnostics of depression patient simulator behavior across turn-, dialogue-, and population-level dimensions. Using PSI-Bench, we benchmark seven LLMs across two simulator frameworks and find that simulators produce overly long, lexically diverse responses, show reduced variability, resolve emotions too quickly, and follow a uniform negative-to-positive trajectory. We also show that the simulation framework has a larger impact on fidelity than the model scale. Results from a human study demonstrate that our benchmark is strongly aligned with expert judgments. Our work reveals key limitations of current depression patient simulators and provides an interpretable, extensible benchmark to guide future simulator design and evaluation.

0 Citations
0 Influential
5.5 Altmetric
27.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!