정신 건강 AI 안전성 테스트에서의 전문가 평가와 인간 피드백의 한계
Expert Evaluation and the Limits of Human Feedback in Mental Health AI Safety Testing
인간 피드백 기반 학습(LHF)은 적절하게 집계된 전문가의 판단이 AI 시스템을 훈련하고 평가하는 데 있어 타당한 정답(ground truth)을 제공한다고 가정합니다. 우리는 안전에 대한 중요도가 매우 높아 전문가의 합의가 필수적인 정신 건강 분야에서 이 가정을 테스트했습니다. 세 명의 공인 정신과 전문의가 보정된 채점 기준을 사용하여 LLM이 생성한 응답을 독립적으로 평가했습니다. 유사한 훈련 배경과 공통된 지침에도 불구하고, 평가자 간 신뢰도는 지속적으로 낮았으며(ICC 0.087–0.295), 이는 중대한 평가에 허용되는 임계값 미만이었습니다. 불일치는 가장 안전에 중요한 항목들에서 가장 높게 나타났습니다. 자살 및 자해 관련 응답은 다른 어떤 범주보다 더 큰 견해 차이를 보였으며, 이는 무작위적인 것이 아니라 체계적이었습니다. 한 요인은 음의 신뢰도(Krippendorff's α= -0.203)를 보였는데, 이는 우연보다 더 나쁜 구조적 불일치를 의미합니다. 정성적 인터뷰 결과, 이러한 불일치는 측정 오류가 아니라 '안전 우선', '참여 중심', '문화적 고려' 등 일관성은 있으나 서로 양립할 수 없는 개별적인 임상적 프레임워크를 반영하는 것으로 밝혀졌습니다. 전문가들이 세밀한 요인 구별보다는 전체론적 위험 휴리스틱에 의존한다는 것을 보여줌으로써, 이러한 연구 결과는 집계된 라벨이 근거 있는 전문적 철학을 사실상 지워버리는 산술적 타협으로 기능함을 시사합니다. 우리의 결과는 안전이 중요한 AI에서의 전문가 불일치를 전문적 경험이 원칙에 입각한 정교한 견해 차이를 도입하는 사회기술적 현상으로 규정합니다. 우리는 보상 모델링, 안전성 분류 및 평가 벤치마크에 대한 시사점을 논의하며, 실무자들이 합의 기반 집계에서 전문가의 불일치를 보존하고 그로부터 학습하는 정렬(alignment) 방법으로 전환할 것을 권장합니다.
Learning from human feedback~(LHF) assumes that expert judgments, appropriately aggregated, yield valid ground truth for training and evaluating AI systems. We tested this assumption in mental health, where high safety stakes make expert consensus essential. Three certified psychiatrists independently evaluated LLM-generated responses using a calibrated rubric. Despite similar training and shared instructions, inter-rater reliability was consistently poor ($ICC$ $0.087$--$0.295$), falling below thresholds considered acceptable for consequential assessment. Disagreement was highest on the most safety-critical items. Suicide and self-harm responses produced greater divergence than any other category, and was systematic rather than random. One factor yielded negative reliability (Krippendorff's $α= -0.203$), indicating structured disagreement worse than chance. Qualitative interviews revealed that disagreement reflects coherent but incompatible individual clinical frameworks, safety-first, engagement-centered, and culturally-informed orientations, rather than measurement error. By demonstrating that experts rely on holistic risk heuristics rather than granular factor discrimination, these findings suggest that aggregated labels function as arithmetic compromises that effectively erase grounded professional philosophies. Our results characterize expert disagreement in safety-critical AI as a sociotechnical phenomenon where professional experience introduces sophisticated layers of principled divergence. We discuss implications for reward modeling, safety classification, and evaluation benchmarks, recommending that practitioners shift from consensus-based aggregation to alignment methods that preserve and learn from expert disagreement.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.