ProMoral-Bench: LLM의 도덕적 추론 및 안전성을 위한 프롬프트 전략 평가
ProMoral-Bench: Evaluating Prompting Strategies for Moral Reasoning and Safety in LLMs
프롬프트 설계는 대규모 언어 모델(LLM)의 도덕적 능력과 안전 정렬에 상당한 영향을 미치지만, 데이터셋 및 모델에 따른 경험적 비교는 여전히 단편적입니다. 본 연구에서는 11가지 프롬프트 패러다임을 4가지 LLM 계열에 대해 평가하는 통합 벤치마크인 ProMoral-Bench를 소개합니다. ETHICS, Scruples, WildJailbreak, 그리고 저희가 새로 개발한 견고성 테스트인 ETHICS-Contrast를 사용하여, 정확성과 안전성을 균형 있게 평가하는 제안된 통합 도덕 안전 점수(Unified Moral Safety Score, UMSS)를 통해 성능을 측정합니다. 결과는 간결하고 예시를 활용한 구조가 복잡한 다단계 추론보다 높은 UMSS 점수를 제공하며, 더 낮은 토큰 비용으로 더 큰 견고성을 갖는다는 것을 보여줍니다. 다단계 추론은 교란에 취약한 것으로 나타났지만, 소량의 예시는 도덕적 안정성과 탈옥 방지에 지속적으로 기여합니다. ProMoral-Bench는 원칙적이고 비용 효율적인 프롬프트 엔지니어링을 위한 표준화된 프레임워크를 제시합니다.
Prompt design significantly impacts the moral competence and safety alignment of large language models (LLMs), yet empirical comparisons remain fragmented across datasets and models.We introduce ProMoral-Bench, a unified benchmark evaluating 11 prompting paradigms across four LLM families. Using ETHICS, Scruples, WildJailbreak, and our new robustness test, ETHICS-Contrast, we measure performance via our proposed Unified Moral Safety Score (UMSS), a metric balancing accuracy and safety. Our results show that compact, exemplar-guided scaffolds outperform complex multi-stage reasoning, providing higher UMSS scores and greater robustness at a lower token cost. While multi-turn reasoning proves fragile under perturbations, few-shot exemplars consistently enhance moral stability and jailbreak resistance. ProMoral-Bench establishes a standardized framework for principled, cost-effective prompt engineering.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.