다속성 인간 평가를 통한 LLM 응답 내 정신 건강 지원 품질 평가
Assessing the Quality of Mental Health Support in LLM Responses through Multi-Attribute Human Evaluation
지속적인 치료 격차, 가용성 문제, 자격을 갖춘 치료사의 부족으로 특징지어지는 전 세계적인 정신 건강 위기의 심화는 대규모 언어 모델(LLM)을 확장 가능한 지원을 위한 유망한 수단으로 자리매김하게 하고 있다. LLM은 접근 가능한 정서적 지원의 잠재력을 제공하지만, 그 신뢰성, 치료적 관련성, 그리고 인간 기준과의 정렬은 여전히 해결하기 어려운 과제로 남아 있다. 본 논문은 치료적 대화에서 LLM이 생성한 응답을 평가하기 위해 설계된 인간 기반 평가 방법론을 소개한다. 우리의 접근 방식은 실제 시나리오 질문이 포함된 데이터셋에서 500건의 정신 건강 대화를 선별하고, 폐쇄형 및 오픈 소스 모델을 포함한 9가지 다양한 LLM이 생성한 응답을 평가하는 것을 포함했다. 구체적으로, 이 응답들은 정신의학 훈련을 받은 두 명의 전문가에 의해 평가되었으며, 이들은 포괄적인 6가지 속성 루브릭에 따라 5점 리커트 척도로 각 응답을 독립적으로 평가했다. 이 루브릭은 '인지적 지원'과 '정서적 공명'을 포착하여 치료 품질에 대한 다차원적인 관점을 제공한다. 분석 결과, LLM은 안전하고 일관성 있으며 임상적으로 적절한 정보를 생성함으로써 강력한 인지적 신뢰성을 제공하지만, 정서적 정렬에 있어서는 불안정한 모습을 보였다. 폐쇄형 모델(예: GPT-4o)은 균형 잡힌 치료적 응답을 제공하는 반면, 오픈 소스 모델은 더 큰 변동성과 정서적 단조로움을 보였다. 우리는 지속적인 인지-정서 격차를 밝혀내고, 정신 건강 지향 LLM에서 정보의 정확성과 함께 관계적 민감성을 우선시하는, 실패를 인식하고 임상에 기반한 평가 프레임워크의 필요성을 강조한다. 우리는 치료적 민감성에 중점을 둔 인간 참여형 균형 잡힌 평가 프로토콜을 옹호하며, 정신 건강 지향 대화형 AI의 책임 있는 설계와 임상적 감독을 안내하는 프레임워크를 제공한다.
The escalating global mental health crisis, marked by persistent treatment gaps, availability, and a shortage of qualified therapists, positions Large Language Models (LLMs) as a promising avenue for scalable support. While LLMs offer potential for accessible emotional assistance, their reliability, therapeutic relevance, and alignment with human standards remain challenging to address. This paper introduces a human-grounded evaluation methodology designed to assess LLM generated responses in therapeutic dialogue. Our approach involved curating a dataset of 500 mental health conversations from datasets with real-world scenario questions and evaluating the responses generated by nine diverse LLMs, including closed source and open source models. More specifically, these responses were evaluated by two psychiatric trained experts, who independently rated each on a 5 point Likert scale across a comprehensive 6 attribute rubric. This rubric captures Cognitive Support and Affective Resonance, providing a multidimensional perspective on therapeutic quality. Our analysis reveals that LLMs provide strong cognitive reliability by producing safe, coherent, and clinically appropriate information, but they demonstrate unstable affective alignment. Although closed source models (e.g., GPT-4o) offer balanced therapeutic responses, open source models show greater variability and emotional flatness. We reveal a persistent cognitive-affective gap and highlight the need for failure aware, clinically grounded evaluation frameworks that prioritize relational sensitivity alongside informational accuracy in mental health oriented LLMs. We advocate for balanced evaluation protocols with human in the loop that center on therapeutic sensitivity and provide a framework to guide the responsible design and clinical oversight of mental health oriented conversational AI.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.