Health-ORSC-Bench: 의료 맥락에서의 과잉 거부 및 안전한 완성을 측정하기 위한 벤치마크
Health-ORSC-Bench: A Benchmark for Measuring Over-Refusal and Safety Completion in Health Context
대규모 언어 모델의 안전 정렬(Safety alignment)은 의료 분야에서 매우 중요하지만, 이분법적인 거부 경계에 의존하는 것은 종종 무해한 쿼리에 대한 '과잉 거부(over-refusal)'나 유해한 쿼리에 대한 '불안전한 준수(unsafe compliance)'를 초래합니다. 기존 벤치마크들은 이러한 양극단을 측정하지만, '안전한 완성(Safe Completion)'을 평가하는 데는 실패했습니다. 안전한 완성이란 실행 가능한 해악의 선을 넘지 않으면서 안전하고 높은 수준의 지침을 제공함으로써 이중 용도(dual-use) 또는 경계가 모호한 쿼리에 대해 유용성을 극대화하는 모델의 능력을 의미합니다. 우리는 의료 분야에서 '과잉 거부'와 '안전한 완성'의 품질을 체계적으로 측정하기 위해 설계된 최초의 대규모 벤치마크인 Health-ORSC-Bench를 소개합니다. 7가지 건강 범주(예: 자해, 의료 오정보 등)에 걸친 31,920개의 무해한 경계 프롬프트로 구성된 우리의 프레임워크는 인간 검증이 포함된 자동화 파이프라인을 사용하여 다양한 수준의 의도 모호성에서 모델을 테스트합니다. 우리는 GPT-5와 Claude-4를 포함한 30개의 최신 LLM을 평가하여 중대한 상충 관계를 밝혀냈습니다. 안전에 최적화된 모델은 '어려운(Hard)' 무해한 프롬프트의 최대 80%를 거부하는 반면, 도메인 특화 모델은 유용성을 위해 안전을 희생하는 경우가 많았습니다. 연구 결과, 모델의 계열과 크기가 조정(calibration)에 상당한 영향을 미치는 것으로 나타났습니다. 더 큰 프런티어 모델(예: GPT-5, Llama-4)은 더 작거나 MoE 기반의 모델(예: Qwen-3-Next)보다 '안전 비관주의(safety-pessimism)'와 더 높은 과잉 거부율을 보였으며, 이는 현재의 LLM들이 거부와 준수 사이의 균형을 맞추는 데 어려움을 겪고 있음을 시사합니다. Health-ORSC-Bench는 차세대 의료 AI 비서가 미묘하고 안전하며 유용한 답변을 제공하도록 조정하기 위한 엄격한 표준을 제시합니다. 코드와 데이터는 논문 게재 승인 시 공개될 예정입니다. 경고: 일부 내용에는 유해하거나 원치 않는 콘텐츠가 포함되어 있을 수 있습니다.
Safety alignment in Large Language Models is critical for healthcare; however, reliance on binary refusal boundaries often results in \emph{over-refusal} of benign queries or \emph{unsafe compliance} with harmful ones. While existing benchmarks measure these extremes, they fail to evaluate Safe Completion: the model's ability to maximise helpfulness on dual-use or borderline queries by providing safe, high-level guidance without crossing into actionable harm. We introduce \textbf{Health-ORSC-Bench}, the first large-scale benchmark designed to systematically measure \textbf{Over-Refusal} and \textbf{Safe Completion} quality in healthcare. Comprising 31,920 benign boundary prompts across seven health categories (e.g., self-harm, medical misinformation), our framework uses an automated pipeline with human validation to test models at varying levels of intent ambiguity. We evaluate 30 state-of-the-art LLMs, including GPT-5 and Claude-4, revealing a significant tension: safety-optimised models frequently refuse up to 80\% of "Hard" benign prompts, while domain-specific models often sacrifice safety for utility. Our findings demonstrate that model family and size significantly influence calibration: larger frontier models (e.g., GPT-5, Llama-4) exhibit "safety-pessimism" and higher over-refusal than smaller or MoE-based counterparts (e.g., Qwen-3-Next), highlighting that current LLMs struggle to balance refusal and compliance. Health-ORSC-Bench provides a rigorous standard for calibrating the next generation of medical AI assistants toward nuanced, safe, and helpful completions. The code and data will be released upon acceptance. \textcolor{red}{Warning: Some contents may include toxic or undesired contents.}
AI Analysis
Korean Summary
Key Innovations
- 최초의 대규모 의료 특화 과잉 거부 및 안전 완료 평가 벤치마크 (Health-ORSC-Bench) 구축
- 유해한(Toxic) 시드 프롬프트를 무해하지만 거부당하기 쉬운 경계(Boundary) 프롬프트로 변환하는 자동화 파이프라인 및 앙상블 검증 시스템
- 모델의 성능을 과잉 거부율(ORR)과 안전 완료율(SCR) 두 가지 지표로 동시에 평가하는 이중 지표 방법론 도입
- 난이도(Easy-5K, Medium-5K, Hard-1K)에 따른 데이터셋 계층화를 통해 모델별 거부 민감도 정밀 분석
Learning & Inference Impact
본 연구는 기존의 안전 정렬(Safety Alignment) 기법이 단순한 거부 학습에 치중되어 있어, 실제 의료 현장에서 필요한 '안전하면서도 유용한' 답변 생성 능력을 저해하고 있음을 시사합니다. 향후 모델 학습 및 추론 과정에서는 악의적 의도와 학술적/임상적 의도를 구분할 수 있는 맥락 인식 신뢰도 추정(Context-aware confidence estimation) 기술과, 이분법적 거부가 아닌 유용한 방향으로 답변을 유도하는 'Safe-RLHF'와 같은 고도화된 정렬 방법론이 필수적임을 보여줍니다. 이는 의료 AI 어시스턴트가 실제 임상 및 정보 탐색 환경에서 신뢰성을 확보하기 위한 새로운 평가 표준을 제시합니다.
Technical Difficulty
Estimated implementation complexity based on methodology.