정신 건강 분야 인공지능의 책임 있는 평가
Responsible Evaluation of AI for Mental Health
인공지능(AI)이 정신 건강 관리에 대한 잠재력을 보여주는 가운데, 현재 정신 건강 분야의 AI 도구를 평가하는 방식은 단편적이며 임상적 실천, 사회적 맥락, 그리고 실제 사용자 경험과 제대로 연계되지 않고 있습니다. 본 논문은 임상적 타당성, 사회적 맥락, 그리고 공정성을 통합하는 학제적 프레임워크를 소개하며, 평가의 대상, 평가 주체, 그리고 목적에 대한 재고를 촉구합니다. 135편의 최근 학술 논문을 분석한 결과, 일반적인 지표에 대한 과도한 의존으로 인해 임상적 타당성, 치료 적합성, 또는 사용자 경험을 제대로 반영하지 못하는 점, 정신 건강 전문가의 참여 부족, 그리고 안전 및 공정성에 대한 미흡한 고려 등 반복적인 한계점을 확인했습니다. 이러한 격차를 해결하기 위해, 본 논문은 평가 유형에 따른 AI 정신 건강 지원 분류 체계를 제안합니다. 이 분류 체계는 평가 대상에 따른 위험 요소와 평가 요구 사항을 명확히 하며, 사례 연구를 통해 실제 적용 방안을 제시합니다.
Although artificial intelligence (AI) shows growing promise for mental health care, current approaches to evaluating AI tools in this domain remain fragmented and poorly aligned with clinical practice, social context, and first-hand user experience. This paper argues for a rethinking of responsible evaluation -- what is measured, by whom, and for what purpose -- by introducing an interdisciplinary framework that integrates clinical soundness, social context, and equity, providing a structured basis for evaluation. Through an analysis of 135 recent *CL publications, we identify recurring limitations, including over-reliance on generic metrics that do not capture clinical validity, therapeutic appropriateness, or user experience, limited participation from mental health professionals, and insufficient attention to safety and equity. To address these gaps, we propose a taxonomy of AI mental health support types -- assessment-, intervention-, and information synthesis-oriented -- each with distinct risks and evaluative requirements, and illustrate its use through case studies.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.