2602.03100v1 Feb 03, 2026 cs.AI

Risky-Bench: 실제 배포 환경에서의 에이전트 안전 위험 진단

Risky-Bench: Probing Agentic Safety Risks under Real-World Deployment

Bing Liu
Bing Liu
Citations: 15,318
h-index: 9
Yuxin Chen
Yuxin Chen
Citations: 276
h-index: 6
Gelei Deng
Gelei Deng
Citations: 58
h-index: 6
Tat-Seng Chua
Tat-Seng Chua
Citations: 2,641
h-index: 28
Chaochao Lu
Chaochao Lu
Citations: 3
h-index: 1
An Zhang
An Zhang
Citations: 99
h-index: 6
Jingnan Zheng
Jingnan Zheng
Citations: 81
h-index: 4
Yanzhen Luo
Yanzhen Luo
Citations: 0
h-index: 0
Chenhang Cui
Chenhang Cui
Citations: 19
h-index: 2
Xiang Wang
Xiang Wang
Citations: 630
h-index: 14
D. Xu
D. Xu
Citations: 10
h-index: 2

거대 언어 모델(LLM)이 실제 환경에서 작동하는 에이전트로 배포되는 사례가 증가함에 따라, 언어적 유해성을 넘어서는 안전 위험이 발생하고 있습니다. 기존의 에이전트 안전성 평가는 특정 에이전트 설정에 맞춘 위험 중심 과제에 의존하여 안전 위험 영역을 제한적으로만 다루며, 복잡한 실제 배포 환경에서 장기적이고 상호작용적인 작업을 수행하는 에이전트의 안전 행동을 제대로 평가하지 못하고 있습니다. 또한, 특정 에이전트 설정에 특화되어 있어 다양한 에이전트 구성에 대한 적응성이 떨어집니다. 이러한 한계를 해결하기 위해, 우리는 실제 배포 환경에 기반한 체계적인 에이전트 안전성 평가 프레임워크인 Risky-Bench를 제안합니다. Risky-Bench는 도메인 범용적인 안전 원칙을 중심으로 평가를 구성하여 안전 영역을 정의하는 문맥 인식 안전 기준을 도출하고, 다양한 위협 가정 하에서의 현실적인 작업 수행을 통해 해당 영역 전반의 안전 위험을 체계적으로 평가합니다. 생활 보조 에이전트 환경에 적용한 결과, Risky-Bench는 현실적인 실행 조건에서 최신 에이전트들이 상당한 안전 위험을 가지고 있음을 밝혀냈습니다. 또한, 잘 구조화된 평가 파이프라인인 Risky-Bench는 생활 보조 시나리오에 국한되지 않고 다른 배포 환경에도 적용되어 환경별 안전성 평가를 구축할 수 있으며, 에이전트 안전성 평가를 위한 확장 가능한 방법론을 제공합니다.

Original Abstract

Large Language Models (LLMs) are increasingly deployed as agents that operate in real-world environments, introducing safety risks beyond linguistic harm. Existing agent safety evaluations rely on risk-oriented tasks tailored to specific agent settings, resulting in limited coverage of safety risk space and failing to assess agent safety behavior during long-horizon, interactive task execution in complex real-world deployments. Moreover, their specialization to particular agent settings limits adaptability across diverse agent configurations. To address these limitations, we propose Risky-Bench, a framework that enables systematic agent safety evaluation grounded in real-world deployment. Risky-Bench organizes evaluation around domain-agnostic safety principles to derive context-aware safety rubrics that delineate safety space, and systematically evaluates safety risks across this space through realistic task execution under varying threat assumptions. When applied to life-assist agent settings, Risky-Bench uncovers substantial safety risks in state-of-the-art agents under realistic execution conditions. Moreover, as a well-structured evaluation pipeline, Risky-Bench is not confined to life-assist scenarios and can be adapted to other deployment settings to construct environment-specific safety evaluations, providing an extensible methodology for agent safety assessment.

0 Citations
0 Influential
14 Altmetric
70.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!