2602.00065v1 Jan 20, 2026 cs.CY

정신 건강 분야 인공지능의 책임 있는 평가

Responsible Evaluation of AI for Mental Health

Flor Miriam Plaza-del-Arco
Flor Miriam Plaza-del-Arco
Citations: 532
h-index: 11
Hiba Arnaout
Hiba Arnaout
Max Planck Institute for Informatics
Citations: 176
h-index: 8
Dirk Hovy
Dirk Hovy
Citations: 670
h-index: 13
Anmol Goel
Anmol Goel
Citations: 16
h-index: 2
H. Schwartz
H. Schwartz
Citations: 61
h-index: 2
Steffen T. Eberhardt
Steffen T. Eberhardt
Citations: 38
h-index: 3
Dana Atzil-Slonim
Dana Atzil-Slonim
Citations: 61
h-index: 4
Gavin Doherty
Gavin Doherty
Citations: 9
h-index: 2
Brian Schwartz
Brian Schwartz
Citations: 10
h-index: 2
Wolfgang Lutz
Wolfgang Lutz
Citations: 35
h-index: 4
T. Althoff
T. Althoff
Citations: 1
h-index: 1
Munmun De Choudhury
Munmun De Choudhury
Citations: 361
h-index: 8
H. Jamalabadi
H. Jamalabadi
Citations: 912
h-index: 15
Raj Sanjay Shah
Raj Sanjay Shah
Citations: 475
h-index: 10
M. Liakata
M. Liakata
Citations: 466
h-index: 12
Iryna Gurevych
Iryna Gurevych
Citations: 59
h-index: 4

인공지능(AI)이 정신 건강 관리에 대한 잠재력을 보여주는 가운데, 현재 정신 건강 분야의 AI 도구를 평가하는 방식은 단편적이며 임상적 실천, 사회적 맥락, 그리고 실제 사용자 경험과 제대로 연계되지 않고 있습니다. 본 논문은 임상적 타당성, 사회적 맥락, 그리고 공정성을 통합하는 학제적 프레임워크를 소개하며, 평가의 대상, 평가 주체, 그리고 목적에 대한 재고를 촉구합니다. 135편의 최근 학술 논문을 분석한 결과, 일반적인 지표에 대한 과도한 의존으로 인해 임상적 타당성, 치료 적합성, 또는 사용자 경험을 제대로 반영하지 못하는 점, 정신 건강 전문가의 참여 부족, 그리고 안전 및 공정성에 대한 미흡한 고려 등 반복적인 한계점을 확인했습니다. 이러한 격차를 해결하기 위해, 본 논문은 평가 유형에 따른 AI 정신 건강 지원 분류 체계를 제안합니다. 이 분류 체계는 평가 대상에 따른 위험 요소와 평가 요구 사항을 명확히 하며, 사례 연구를 통해 실제 적용 방안을 제시합니다.

Original Abstract

Although artificial intelligence (AI) shows growing promise for mental health care, current approaches to evaluating AI tools in this domain remain fragmented and poorly aligned with clinical practice, social context, and first-hand user experience. This paper argues for a rethinking of responsible evaluation -- what is measured, by whom, and for what purpose -- by introducing an interdisciplinary framework that integrates clinical soundness, social context, and equity, providing a structured basis for evaluation. Through an analysis of 135 recent *CL publications, we identify recurring limitations, including over-reliance on generic metrics that do not capture clinical validity, therapeutic appropriateness, or user experience, limited participation from mental health professionals, and insufficient attention to safety and equity. To address these gaps, we propose a taxonomy of AI mental health support types -- assessment-, intervention-, and information synthesis-oriented -- each with distinct risks and evaluative requirements, and illustrate its use through case studies.

0 Citations
0 Influential
7.5 Altmetric
37.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!