2601.01802v3 Jan 05, 2026 cs.AI

PsychEval: 고현실감 AI 심리 상담사를 위한 다회기 및 다중 치료 벤치마크

PsychEval: A Multi-Session and Multi-Therapy Benchmark for High-Realism AI Psychological Counselor

Qianjun Pan
Qianjun Pan
Citations: 49
h-index: 4
Junyi Wang
Junyi Wang
Citations: 19
h-index: 2
Jie Zhou
Jie Zhou
Citations: 8
h-index: 2
Yutao Yang
Yutao Yang
Citations: 78
h-index: 3
Junsong Li
Junsong Li
Citations: 57
h-index: 4
Kaiyin Xu
Kaiyin Xu
Citations: 0
h-index: 0
Yougen Zhou
Yougen Zhou
Citations: 158
h-index: 3
Yihan Li
Yihan Li
Citations: 1
h-index: 1
Qin Chen
Qin Chen
Citations: 43
h-index: 4
Ningning Zhou
Ningning Zhou
Citations: 4
h-index: 1
Liang He
Liang He
Citations: 411
h-index: 12
Kai Chen
Kai Chen
Citations: 394
h-index: 4
Jingyuan Zhao
Jingyuan Zhao
Citations: 0
h-index: 0

신뢰할 수 있는 심리 평가 AI를 개발하기 위해, 우리는 세 가지 핵심 과제를 해결하도록 설계된 다회기, 다중 치료 및 고도로 사실적인 벤치마크인 'PsychEval'을 소개합니다. 1) 고도로 사실적인 AI 상담사를 훈련할 수 있는가? 현실적인 상담은 지속적인 기억과 역동적인 목표 추적을 필요로 하는 종단적(longitudinal) 과제입니다. 우리는 기억 연속성, 적응형 추론 및 장기 계획과 같은 중요한 능력을 요구하는 다회기 벤치마크(3단계에 걸쳐 6~10회기로 구성)를 제안합니다. 이 데이터셋은 677개 이상의 메타 기술과 4,577개의 세부 기술(atomic skills)을 포함한 광범위한 전문 기술로 주석 처리되어 있습니다. 2) 다중 치료 AI 상담사를 어떻게 훈련할 것인가? 기존 모델은 주로 단일 치료법에 집중하지만, 복잡한 사례는 다양한 치료법 간의 유연한 전략을 필요로 합니다. 우리는 6가지 핵심 심리 주제에 걸친 통합된 3단계 임상 프레임워크와 함께 5가지 치료 양식(정신역동, 행동주의, CBT, 인본주의적 실존주의, 포스트모더니즘) 및 통합 치료를 포괄하는 다양한 데이터셋을 구축합니다. 3) AI 상담사를 어떻게 체계적으로 평가할 것인가? 우리는 내담자 수준 및 상담사 수준 차원에 걸쳐 18개의 치료 특화 및 공통 지표를 갖춘 포괄적인 평가 프레임워크를 수립합니다. 이를 지원하기 위해 2,000개 이상의 다양한 내담자 프로필도 구축합니다. 광범위한 실험 분석을 통해 우리 데이터셋의 우수한 품질과 임상적 충실도를 완전히 검증했습니다. 결정적으로, 'PsychEval'은 정적인 벤치마킹을 넘어 임상적으로 책임감 있고 적응력 있는 AI 상담사의 자가 진화 훈련을 가능하게 하는 고충실도 강화 학습 환경으로서의 역할을 합니다.

Original Abstract

To develop a reliable AI for psychological assessment, we introduce \texttt{PsychEval}, a multi-session, multi-therapy, and highly realistic benchmark designed to address three key challenges: \textbf{1) Can we train a highly realistic AI counselor?} Realistic counseling is a longitudinal task requiring sustained memory and dynamic goal tracking. We propose a multi-session benchmark (spanning 6-10 sessions across three distinct stages) that demands critical capabilities such as memory continuity, adaptive reasoning, and longitudinal planning. The dataset is annotated with extensive professional skills, comprising over 677 meta-skills and 4577 atomic skills. \textbf{2) How to train a multi-therapy AI counselor?} While existing models often focus on a single therapy, complex cases frequently require flexible strategies among various therapies. We construct a diverse dataset covering five therapeutic modalities (Psychodynamic, Behaviorism, CBT, Humanistic Existentialist, and Postmodernist) alongside an integrative therapy with a unified three-stage clinical framework across six core psychological topics. \textbf{3) How to systematically evaluate an AI counselor?} We establish a holistic evaluation framework with 18 therapy-specific and therapy-shared metrics across Client-Level and Counselor-Level dimensions. To support this, we also construct over 2,000 diverse client profiles. Extensive experimental analysis fully validates the superior quality and clinical fidelity of our dataset. Crucially, \texttt{PsychEval} transcends static benchmarking to serve as a high-fidelity reinforcement learning environment that enables the self-evolutionary training of clinically responsible and adaptive AI counselors.

0 Citations
0 Influential
6 Altmetric
30.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!