전문가 평가와 정신 건강 AI 안전성 테스트에서 인간 피드백의 한계
Expert Evaluation and the Limits of Human Feedback in Mental Health AI Safety Testing
인간 피드백 학습(LHF)은 적절하게 통합된 전문가 판단이 AI 시스템의 훈련 및 평가를 위한 유효한 기준점을 제공한다고 가정합니다. 우리는 정신 건강 분야에서, 높은 안전성이 요구되는 상황에서 이 가정을 검증했습니다. 세 명의 자격증을 갖춘 정신과 의사가 표준화된 평가 기준을 사용하여 LLM이 생성한 응답을 독립적으로 평가했습니다. 유사한 훈련과 동일한 지침에도 불구하고, 평가자 간 신뢰도는 지속적으로 낮았습니다($ICC$ $0.087$–$0.295$), 이는 중요한 평가에 대해 허용 가능한 수준에 미치지 못했습니다. 의견 불일치는 가장 안전에 중요한 항목에서 가장 높았습니다. 자살 및 자해 관련 응답은 다른 범주보다 더 큰 차이를 보였으며, 이는 무작위적인 차이가 아니라 체계적인 차이였습니다. 하나의 요인은 음의 신뢰도를 나타냈습니다(Krippendorff's $α= -0.203$), 이는 우연보다 더 나쁜 구조적인 의견 불일치를 의미합니다. 질적 인터뷰 결과, 의견 불일치는 측정 오류가 아닌, 안전을 최우선으로 하는, 참여 중심적이며, 문화적 맥락을 고려하는 등 일관성 있지만 상반되는 개인적인 임상적 관점을 반영하는 것으로 나타났습니다. 본 연구는 전문가들이 세분화된 요소 구분이 아닌, 전체적인 위험 예측에 의존한다는 점을 보여줌으로써, 집계된 레이블이 실제적인 전문적 철학을 효과적으로 무효화하는 산술적 타협이라는 것을 시사합니다. 본 연구 결과는 안전이 중요한 AI 분야에서 전문가 간 의견 불일치가 전문적인 경험이 미묘한 수준의 원칙적인 차이를 도입하는 사회 기술적 현상임을 보여줍니다. 우리는 이러한 결과가 보상 모델링, 안전 분류 및 평가 벤치마크에 미치는 영향을 논의하며, 실무자들이 합의 기반 집계에서 벗어나 전문가 간 의견 불일치를 보존하고 학습하는 정렬 방법으로 전환할 것을 권장합니다.
Learning from human feedback~(LHF) assumes that expert judgments, appropriately aggregated, yield valid ground truth for training and evaluating AI systems. We tested this assumption in mental health, where high safety stakes make expert consensus essential. Three certified psychiatrists independently evaluated LLM-generated responses using a calibrated rubric. Despite similar training and shared instructions, inter-rater reliability was consistently poor ($ICC$ $0.087$--$0.295$), falling below thresholds considered acceptable for consequential assessment. Disagreement was highest on the most safety-critical items. Suicide and self-harm responses produced greater divergence than any other category, and was systematic rather than random. One factor yielded negative reliability (Krippendorff's $α= -0.203$), indicating structured disagreement worse than chance. Qualitative interviews revealed that disagreement reflects coherent but incompatible individual clinical frameworks, safety-first, engagement-centered, and culturally-informed orientations, rather than measurement error. By demonstrating that experts rely on holistic risk heuristics rather than granular factor discrimination, these findings suggest that aggregated labels function as arithmetic compromises that effectively erase grounded professional philosophies. Our results characterize expert disagreement in safety-critical AI as a sociotechnical phenomenon where professional experience introduces sophisticated layers of principled divergence. We discuss implications for reward modeling, safety classification, and evaluation benchmarks, recommending that practitioners shift from consensus-based aggregation to alignment methods that preserve and learn from expert disagreement.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.