Risky-Bench: 실제 배포 환경에서의 에이전트 안전 위험 진단
Risky-Bench: Probing Agentic Safety Risks under Real-World Deployment
거대 언어 모델(LLM)이 실제 환경에서 작동하는 에이전트로 배포되는 사례가 증가함에 따라, 언어적 유해성을 넘어서는 안전 위험이 발생하고 있습니다. 기존의 에이전트 안전성 평가는 특정 에이전트 설정에 맞춘 위험 중심 과제에 의존하여 안전 위험 영역을 제한적으로만 다루며, 복잡한 실제 배포 환경에서 장기적이고 상호작용적인 작업을 수행하는 에이전트의 안전 행동을 제대로 평가하지 못하고 있습니다. 또한, 특정 에이전트 설정에 특화되어 있어 다양한 에이전트 구성에 대한 적응성이 떨어집니다. 이러한 한계를 해결하기 위해, 우리는 실제 배포 환경에 기반한 체계적인 에이전트 안전성 평가 프레임워크인 Risky-Bench를 제안합니다. Risky-Bench는 도메인 범용적인 안전 원칙을 중심으로 평가를 구성하여 안전 영역을 정의하는 문맥 인식 안전 기준을 도출하고, 다양한 위협 가정 하에서의 현실적인 작업 수행을 통해 해당 영역 전반의 안전 위험을 체계적으로 평가합니다. 생활 보조 에이전트 환경에 적용한 결과, Risky-Bench는 현실적인 실행 조건에서 최신 에이전트들이 상당한 안전 위험을 가지고 있음을 밝혀냈습니다. 또한, 잘 구조화된 평가 파이프라인인 Risky-Bench는 생활 보조 시나리오에 국한되지 않고 다른 배포 환경에도 적용되어 환경별 안전성 평가를 구축할 수 있으며, 에이전트 안전성 평가를 위한 확장 가능한 방법론을 제공합니다.
Large Language Models (LLMs) are increasingly deployed as agents that operate in real-world environments, introducing safety risks beyond linguistic harm. Existing agent safety evaluations rely on risk-oriented tasks tailored to specific agent settings, resulting in limited coverage of safety risk space and failing to assess agent safety behavior during long-horizon, interactive task execution in complex real-world deployments. Moreover, their specialization to particular agent settings limits adaptability across diverse agent configurations. To address these limitations, we propose Risky-Bench, a framework that enables systematic agent safety evaluation grounded in real-world deployment. Risky-Bench organizes evaluation around domain-agnostic safety principles to derive context-aware safety rubrics that delineate safety space, and systematically evaluates safety risks across this space through realistic task execution under varying threat assumptions. When applied to life-assist agent settings, Risky-Bench uncovers substantial safety risks in state-of-the-art agents under realistic execution conditions. Moreover, as a well-structured evaluation pipeline, Risky-Bench is not confined to life-assist scenarios and can be adapted to other deployment settings to construct environment-specific safety evaluations, providing an extensible methodology for agent safety assessment.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.