2602.03255v1 Feb 03, 2026 cs.AI

LPS-Bench: 일반적 및 적대적 시나리오에서의 장기 계획 수립 시 컴퓨터 사용 에이전트의 안전 인식 벤치마킹

LPS-Bench: Benchmarking Safety Awareness of Computer-Use Agents in Long-Horizon Planning under Benign and Adversarial Scenarios

Chujia Hu
Chujia Hu
Citations: 1
h-index: 1
Xia Hu
Xia Hu
Citations: 1
h-index: 1
Dongrui Liu
Dongrui Liu
Citations: 2
h-index: 1
Wenjie Wang
Wenjie Wang
Citations: 2
h-index: 1
Tianyu Chen
Tianyu Chen
Citations: 36
h-index: 2
G. Gao
G. Gao
Citations: 39
h-index: 3

실제 컴퓨터 시스템과 상호작용하는 컴퓨터 사용 에이전트(CUA)는 자동화된 작업을 수행할 수 있지만 심각한 안전 위험에 직면해 있습니다. 모호한 지시는 유해한 행동을 유발할 수 있으며, 적대적인 사용자는 도구 실행을 조작하여 악의적인 목표를 달성할 수 있습니다. 기존 벤치마크들은 대부분 단기 또는 GUI 기반 작업에 중점을 두어 실행 시간 오류를 평가하지만, 계획 단계의 위험을 예측하는 능력은 간과하고 있습니다. 이러한 격차를 해소하기 위해, 본 논문에서는 7개 작업 도메인과 9가지 위험 유형에 걸친 65개 시나리오에서 일반적 및 적대적 상호작용을 모두 다루며, 장기 작업 수행 시 MCP 기반 CUA의 계획 단계 안전 인식을 평가하는 벤치마크인 LPS-Bench를 제안합니다. 확장 가능한 데이터 생성을 위한 멀티 에이전트 자동화 파이프라인을 도입하고, 계획 궤적 전반에 걸친 안전 인식을 평가하기 위해 LLM-as-a-judge 평가 프로토콜을 채택하였습니다. 실험 결과, 기존 CUA들이 안전한 행동을 유지하는 능력에 상당한 결함이 있음이 밝혀졌습니다. 더 나아가 본 연구에서는 위험 요소를 분석하고 MCP 기반 CUA 시스템의 장기 계획 안전성을 향상시키기 위한 완화 전략을 제안합니다. 관련 코드는 https://github.com/tychenn/LPS-Bench 에 공개되어 있습니다.

Original Abstract

Computer-use agents (CUAs) that interact with real computer systems can perform automated tasks but face critical safety risks. Ambiguous instructions may trigger harmful actions, and adversarial users can manipulate tool execution to achieve malicious goals. Existing benchmarks mostly focus on short-horizon or GUI-based tasks, evaluating on execution-time errors but overlooking the ability to anticipate planning-time risks. To fill this gap, we present LPS-Bench, a benchmark that evaluates the planning-time safety awareness of MCP-based CUAs under long-horizon tasks, covering both benign and adversarial interactions across 65 scenarios of 7 task domains and 9 risk types. We introduce a multi-agent automated pipeline for scalable data generation and adopt an LLM-as-a-judge evaluation protocol to assess safety awareness through the planning trajectory. Experiments reveal substantial deficiencies in existing CUAs' ability to maintain safe behavior. We further analyze the risks and propose mitigation strategies to improve long-horizon planning safety in MCP-based CUA systems. We open-source our code at https://github.com/tychenn/LPS-Bench.

1 Citations
0 Influential
21.5 Altmetric
108.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!