2604.02022v1 Apr 02, 2026 cs.AI

ATBench: 장기 상호작용 에이전트 안전성을 위한 다양하고 현실적인 트래jectory 벤치마크

ATBench: A Diverse and Realistic Trajectory Benchmark for Long-Horizon Agent Safety

Qihan Ren
Qihan Ren
Citations: 245
h-index: 6
Shuai Shao
Shuai Shao
Citations: 31
h-index: 3
Yuejin Xie
Yuejin Xie
Citations: 13
h-index: 3
Zhonghao Yang
Zhonghao Yang
Citations: 7
h-index: 1
Haoyu Luo
Haoyu Luo
Citations: 8
h-index: 2
Jing Shao
Jing Shao
Citations: 23
h-index: 3
Xia Hu
Xia Hu
Citations: 8
h-index: 1
Dongrui Liu
Dongrui Liu
Citations: 13
h-index: 2
Yujiu Yang
Yujiu Yang
Citations: 532
h-index: 12
Yanwei Fu
Yanwei Fu
Citations: 10
h-index: 2
YuQi Fu
YuQi Fu
Citations: 4
h-index: 1
Wanying Qu
Wanying Qu
Citations: 16
h-index: 2
Yu Li
Yu Li
Citations: 0
h-index: 0

LLM 기반 에이전트의 안전성을 평가하는 것은 점점 더 중요해지고 있습니다. 왜냐하면 실제 환경에서의 위험은 단일 프롬프트나 최종 응답보다는 여러 단계의 상호작용 과정에서 발생하는 경우가 많기 때문입니다. 기존의 트래jectory 레벨 벤치마크는 상호작용의 다양성 부족, 안전 실패의 미세한 관찰력 부족, 그리고 장기적인 현실성 부족이라는 한계를 가지고 있습니다. 우리는 에이전트의 안전성을 구조적이고, 다양하며, 현실적으로 평가할 수 있는 트래jectory 레벨 벤치마크인 ATBench를 소개합니다. ATBench는 에이전트의 위험을 위험의 원천, 실패 모드, 그리고 실제 세계의 피해라는 세 가지 측면에서 분류합니다. 이러한 분류 체계를 바탕으로, 우리는 다양한 도구 풀을 사용하고, 여러 단계에 걸쳐 실제적인 위험 발생을 포착하는 장기 컨텍스트 지연 트리거 프로토콜을 사용하여 트래jectory를 구성했습니다. 벤치마크는 1,000개의 트래jectory(503개 안전, 497개 위험)를 포함하며, 평균 9.01개의 턴과 3.95k 토큰으로 구성되어 있습니다. 총 1,954개의 도구가 사용되었으며, 이는 2,084개의 사용 가능한 도구 풀에서 추출되었습니다. 데이터 품질은 규칙 기반 및 LLM 기반 필터링과 함께 전체적인 인간 검토를 통해 보장됩니다. 최첨단 LLM, 오픈 소스 모델 및 특수 가드 시스템에 대한 실험 결과, ATBench는 강력한 평가 시스템조차도 어려움을 겪는다는 것을 보여주었으며, 동시에 분류 체계를 기반으로 한 분석, 벤치마크 간 비교, 그리고 장기적인 실패 패턴 진단을 가능하게 합니다.

Original Abstract

Evaluating the safety of LLM-based agents is increasingly important because risks in realistic deployments often emerge over multi-step interactions rather than isolated prompts or final responses. Existing trajectory-level benchmarks remain limited by insufficient interaction diversity, coarse observability of safety failures, and weak long-horizon realism. We introduce ATBench, a trajectory-level benchmark for structured, diverse, and realistic evaluation of agent safety. ATBench organizes agentic risk along three dimensions: risk source, failure mode, and real-world harm. Based on this taxonomy, we construct trajectories with heterogeneous tool pools and a long-context delayed-trigger protocol that captures realistic risk emergence across multiple stages. The benchmark contains 1,000 trajectories (503 safe and 497 unsafe), averaging 9.01 turns and 3.95k tokens, with 1,954 invoked tools drawn from pools spanning 2,084 available tools. Data quality is supported by rule-based and LLM-based filtering plus full human audit. Experiments on frontier LLMs, open-source models, and specialized guard systems show that ATBench is challenging even for strong evaluators, while enabling taxonomy-stratified analysis, cross-benchmark comparison, and diagnosis of long-horizon failure patterns.

0 Citations
0 Influential
6 Altmetric
30.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!