2602.13274v1 Feb 05, 2026 cs.AI

ProMoral-Bench: LLM의 도덕적 추론 및 안전성을 위한 프롬프트 전략 평가

ProMoral-Bench: Evaluating Prompting Strategies for Moral Reasoning and Safety in LLMs

Ruizhe Li
Ruizhe Li
Citations: 10
h-index: 2
Kevin Zhu
Kevin Zhu
Citations: 13
h-index: 2
Sunishchal Dev
Sunishchal Dev
Citations: 32
h-index: 4
Roha Thomas
Roha Thomas
Citations: 0
h-index: 0
Shikhar Shiromani
Shikhar Shiromani
Citations: 24
h-index: 2
A. Chaudhry
A. Chaudhry
Citations: 563
h-index: 10
Vasu Sharma
Vasu Sharma
Citations: 65
h-index: 5

프롬프트 설계는 대규모 언어 모델(LLM)의 도덕적 능력과 안전 정렬에 상당한 영향을 미치지만, 데이터셋 및 모델에 따른 경험적 비교는 여전히 단편적입니다. 본 연구에서는 11가지 프롬프트 패러다임을 4가지 LLM 계열에 대해 평가하는 통합 벤치마크인 ProMoral-Bench를 소개합니다. ETHICS, Scruples, WildJailbreak, 그리고 저희가 새로 개발한 견고성 테스트인 ETHICS-Contrast를 사용하여, 정확성과 안전성을 균형 있게 평가하는 제안된 통합 도덕 안전 점수(Unified Moral Safety Score, UMSS)를 통해 성능을 측정합니다. 결과는 간결하고 예시를 활용한 구조가 복잡한 다단계 추론보다 높은 UMSS 점수를 제공하며, 더 낮은 토큰 비용으로 더 큰 견고성을 갖는다는 것을 보여줍니다. 다단계 추론은 교란에 취약한 것으로 나타났지만, 소량의 예시는 도덕적 안정성과 탈옥 방지에 지속적으로 기여합니다. ProMoral-Bench는 원칙적이고 비용 효율적인 프롬프트 엔지니어링을 위한 표준화된 프레임워크를 제시합니다.

Original Abstract

Prompt design significantly impacts the moral competence and safety alignment of large language models (LLMs), yet empirical comparisons remain fragmented across datasets and models.We introduce ProMoral-Bench, a unified benchmark evaluating 11 prompting paradigms across four LLM families. Using ETHICS, Scruples, WildJailbreak, and our new robustness test, ETHICS-Contrast, we measure performance via our proposed Unified Moral Safety Score (UMSS), a metric balancing accuracy and safety. Our results show that compact, exemplar-guided scaffolds outperform complex multi-stage reasoning, providing higher UMSS scores and greater robustness at a lower token cost. While multi-turn reasoning proves fragile under perturbations, few-shot exemplars consistently enhance moral stability and jailbreak resistance. ProMoral-Bench establishes a standardized framework for principled, cost-effective prompt engineering.

0 Citations
0 Influential
5 Altmetric
25.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!