2602.13379v1 Feb 13, 2026 cs.CR

다수의 전환 과정에서 더욱 위험한 상황: 도구 사용 에이전트의 다중 전환 안전 위험에 대한 벤치마킹 및 방어 연구

Unsafer in Many Turns: Benchmarking and Defending Multi-Turn Safety Risks in Tool-Using Agents

D. Song
D. Song
Citations: 294
h-index: 3
Xu Li
Xu Li
Citations: 0
h-index: 0
Simon Yu
Simon Yu
Citations: 66
h-index: 4
Minzhou Pan
Minzhou Pan
Citations: 505
h-index: 10
Yiyou Sun
Yiyou Sun
Citations: 83
h-index: 4
Bo Li
Bo Li
Citations: 108
h-index: 2
Xue Lin
Xue Lin
Citations: 13
h-index: 2
Weiyan Shi
Weiyan Shi
Citations: 182
h-index: 5

LLM 기반 에이전트는 점점 더 강력해지고 있지만, 안전성은 이에 미치지 못합니다. 이는 에이전트가 할 수 있는 것과 해야 하는 것 사이의 격차를 야기합니다. 이러한 격차는 에이전트가 다중 전환 상호 작용을 수행하고 다양한 도구를 사용할수록 심화되며, 기존 벤치마크에서 간과되는 새로운 위험을 초래합니다. 우리는 다중 전환 및 실제 도구 사용 환경에서 안전성 테스트를 체계적으로 확장하기 위해, 단일 전환의 유해한 작업을 다중 전환 공격 시퀀스로 변환하는 체계적인 분류 체계를 제안합니다. 이 분류 체계를 사용하여 다중 전환 도구 사용 에이전트의 안전성을 평가하는 최초의 벤치마크인 MT-AgentRisk를 구축했습니다. 우리의 실험 결과, 다중 전환 환경에서 공격 성공률(ASR)이 개방형 및 폐쇄형 모델 모두에서 평균 16% 증가하는 것으로 나타났습니다. 이러한 격차를 해소하기 위해, 우리는 훈련이 필요 없고, 도구에 독립적이며, 자체 탐색을 기반으로 하는 방어 시스템인 ToolShield를 제안합니다. ToolShield는 새로운 도구를 마주했을 때, 에이전트가 자체적으로 테스트 케이스를 생성하고, 이를 실행하여 downstream 효과를 관찰하며, 안전 경험을 추출하여 배포합니다. 실험 결과, ToolShield는 다중 전환 상호 작용에서 ASR을 평균 30% 감소시키는 효과를 보였습니다. 저희의 코드는 https://github.com/CHATS-lab/ToolShield 에서 확인할 수 있습니다.

Original Abstract

LLM-based agents are becoming increasingly capable, yet their safety lags behind. This creates a gap between what agents can do and should do. This gap widens as agents engage in multi-turn interactions and employ diverse tools, introducing new risks overlooked by existing benchmarks. To systematically scale safety testing into multi-turn, tool-realistic settings, we propose a principled taxonomy that transforms single-turn harmful tasks into multi-turn attack sequences. Using this taxonomy, we construct MT-AgentRisk (Multi-Turn Agent Risk Benchmark), the first benchmark to evaluate multi-turn tool-using agent safety. Our experiments reveal substantial safety degradation: the Attack Success Rate (ASR) increases by 16% on average across open and closed models in multi-turn settings. To close this gap, we propose ToolShield, a training-free, tool-agnostic, self-exploration defense: when encountering a new tool, the agent autonomously generates test cases, executes them to observe downstream effects, and distills safety experiences for deployment. Experiments show that ToolShield effectively reduces ASR by 30% on average in multi-turn interactions. Our code is available at https://github.com/CHATS-lab/ToolShield.

0 Citations
0 Influential
35.397207708399 Altmetric
177.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!