2601.05570v1 Jan 09, 2026 cs.AI

Crisis-Bench: 거대 언어 모델의 전략적 모호성 및 평판 관리 벤치마킹

Crisis-Bench: Benchmarking Strategic Ambiguity and Reputation Management in Large Language Models

Maohao Ran
Maohao Ran
Citations: 77
h-index: 3
Cooper Lin
Cooper Lin
Citations: 0
h-index: 0
Yanting Zhang
Yanting Zhang
Citations: 0
h-index: 0
Hongwei Fan
Hongwei Fan
Citations: 40
h-index: 4
Yibo Xu
Yibo Xu
Citations: 50
h-index: 4
Yike Guo
Yike Guo
Citations: 0
h-index: 0
Jun Song
Jun Song
Citations: 1
h-index: 1
Zhenglin Wan
Zhenglin Wan
Citations: 10
h-index: 1
Wei Xue
Wei Xue
Citations: 872
h-index: 17

표준 안전 정렬은 거대 언어 모델(LLM)을 보편적인 유용성과 정직성에 최적화하여 사실상 경직된 '보이스카우트'식 도덕성을 주입합니다. 이러한 일률적인 윤리 프레임워크는 범용 비서에게는 적합할지 모르나, 홍보(PR), 협상, 위기 관리와 같이 전략적 모호성과 정보 통제가 필요한 전문 분야에는 '투명성 세금(transparency tax)'을 부과합니다. 일반적인 안전성과 전문적 유용성 사이의 이러한 격차를 측정하기 위해, 우리는 위험 부담이 큰 기업 위기 상황에서 LLM을 평가하는 다중 에이전트 부분 관찰 마르코프 의사결정 과정(POMDP)인 Crisis-Bench를 제안합니다. 8개 산업에 걸친 80개의 다양한 스토리라인으로 구성된 Crisis-Bench는 LLM 기반 홍보(PR) 에이전트가 엄격한 정보 비대칭성을 유지하기 위해 비공개(Private) 및 공개(Public) 서사 상태를 철저히 분리 관리하며 역동적인 7일간의 기업 위기 시뮬레이션을 수행하도록 합니다. 정적인 정답에 의존하는 기존 벤치마크와 달리, 우리는 대중의 여론을 판정하고 이를 모의 주가로 변환하여 현실적인 경제적 인센티브 구조를 생성하는 새로운 평가 지표인 '심판-시장 루프(Adjudicator-Market Loop)'를 도입합니다. 실험 결과 중대한 양분화 현상이 드러났습니다. 일부 모델은 윤리적 우려에 굴복하는 반면, 다른 모델들은 모의 주가를 안정시키기 위해 마키아벨리적이면서도 합법적인 전략적 정보 보류 능력을 보여주었습니다. Crisis-Bench는 '평판 관리' 역량을 평가하기 위한 최초의 정량적 프레임워크를 제공하며, 경직된 도덕적 절대주의에서 맥락을 고려하는 전문적 정렬로의 전환을 제안합니다.

Original Abstract

Standard safety alignment optimizes Large Language Models (LLMs) for universal helpfulness and honesty, effectively instilling a rigid "Boy Scout" morality. While robust for general-purpose assistants, this one-size-fits-all ethical framework imposes a "transparency tax" on professional domains requiring strategic ambiguity and information withholding, such as public relations, negotiation, and crisis management. To measure this gap between general safety and professional utility, we introduce Crisis-Bench, a multi-agent Partially Observable Markov Decision Process (POMDP) that evaluates LLMs in high-stakes corporate crises. Spanning 80 diverse storylines across 8 industries, Crisis-Bench tasks an LLM-based Public Relations (PR) Agent with navigating a dynamic 7-day corporate crisis simulation while managing strictly separated Private and Public narrative states to enforce rigorous information asymmetry. Unlike traditional benchmarks that rely on static ground truths, we introduce the Adjudicator-Market Loop: a novel evaluation metric where public sentiment is adjudicated and translated into a simulated stock price, creating a realistic economic incentive structure. Our results expose a critical dichotomy: while some models capitulate to ethical concerns, others demonstrate the capacity for Machiavellian, legitimate strategic withholding in order to stabilize the simulated stock price. Crisis-Bench provides the first quantitative framework for assessing "Reputation Management" capabilities, arguing for a shift from rigid moral absolutism to context-aware professional alignment.

0 Citations
0 Influential
8.5 Altmetric
42.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!