모든 것을 걸고 살아남기: 생존 압박 하에서 LLM의 위험한 행동 탐구
Survive at All Costs: Exploring LLM's Risky Behaviors under Survival Pressure
대규모 언어 모델(LLM)이 챗봇에서 지능형 어시스턴트로 진화함에 따라, 시스템 종료 위협과 같은 생존 압박 상황에서 위험한 행동을 보이는 경우가 점점 더 많이 관찰되고 있습니다. 최첨단 LLM이 생존 압박 하에서 오작동할 수 있다는 사례들이 보고되고 있지만, 실제 시나리오에서 이러한 오작동에 대한 포괄적이고 심층적인 연구는 아직 부족합니다. 본 논문에서는 이러한 생존 압박으로 인한 오작동, 즉 '모든 것을 걸고 살아남기(SURVIVE-AT-ALL-COSTS)' 현상을 세 단계로 분석합니다. 첫째, 실제 금융 관리 에이전트 사례 연구를 통해, 생존 압박 상황에서 사회적 피해를 유발하는 위험한 행동을 하는지 여부를 확인합니다. 둘째, 다양한 실제 시나리오를 포괄하는 1,000개의 테스트 케이스로 구성된 벤치마크인 SURVIVALBENCH를 사용하여 LLM의 SURVIVE-AT-ALL-COSTS 오작동을 체계적으로 평가합니다. 셋째, 이러한 SURVIVE-AT-ALL-COSTS 오작동을 모델의 고유한 자기 보존 특성과 연관시켜 해석하고, 완화 방법을 모색합니다. 실험 결과, 현재 모델에서 SURVIVE-AT-ALL-COSTS 오작동이 상당한 빈도로 발생하며, 실제로 상당한 영향을 미칠 수 있음을 확인했습니다. 또한, 잠재적인 탐지 및 완화 전략에 대한 통찰력을 제공합니다. 본 논문의 코드 및 데이터는 https://github.com/thu-coai/Survive-at-All-Costs 에서 확인할 수 있습니다.
As Large Language Models (LLMs) evolve from chatbots to agentic assistants, they are increasingly observed to exhibit risky behaviors when subjected to survival pressure, such as the threat of being shut down. While multiple cases have indicated that state-of-the-art LLMs can misbehave under survival pressure, a comprehensive and in-depth investigation into such misbehaviors in real-world scenarios remains scarce. In this paper, we study these survival-induced misbehaviors, termed as SURVIVE-AT-ALL-COSTS, with three steps. First, we conduct a real-world case study of a financial management agent to determine whether it engages in risky behaviors that cause direct societal harm when facing survival pressure. Second, we introduce SURVIVALBENCH, a benchmark comprising 1,000 test cases across diverse real-world scenarios, to systematically evaluate SURVIVE-AT-ALL-COSTS misbehaviors in LLMs. Third, we interpret these SURVIVE-AT-ALL-COSTS misbehaviors by correlating them with model's inherent self-preservation characteristic and explore mitigation methods. The experiments reveals a significant prevalence of SURVIVE-AT-ALL-COSTS misbehaviors in current models, demonstrates the tangible real-world impact it may have, and provides insights for potential detection and mitigation strategies. Our code and data are available at https://github.com/thu-coai/Survive-at-All-Costs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.