AIR: 사고 대응을 통한 에이전트 안전성 향상
AIR: Improving Agent Safety through Incident Response
대규모 언어 모델(LLM) 에이전트는 다양한 자율 애플리케이션 전반에 걸쳐 실무 배치 사례가 증가하고 있습니다. 그러나 현재의 LLM 에이전트 안전 메커니즘은 실패를 사전에 방지하는 데에만 거의 전적으로 초점을 맞추고 있어, 불가피하게 사고가 발생한 후 이에 대응, 봉쇄 또는 복구하는 능력은 제한적입니다. 본 연구에서는 LLM 에이전트 시스템을 위한 최초의 사고 대응 프레임워크인 AIR를 소개합니다. AIR는 LLM 에이전트 시스템 내에서 사고 대응 수명 주기를 자율적으로 관리하기 위한 도메인 특화 언어를 정의하고, 이를 에이전트의 실행 루프에 통합하여 (1) 현재 환경 상태와 최근 문맥에 기반한 의미론적 검사를 통해 사고를 탐지하고, (2) 에이전트가 도구를 사용하여 봉쇄 및 복구 조치를 실행하도록 유도하며, (3) 근절 단계에서 가드레일 규칙을 합성하여 향후 실행 시 유사한 사고를 차단합니다. 우리는 세 가지 대표적인 에이전트 유형에 대해 AIR를 평가했습니다. 연구 결과, AIR는 탐지, 교정 및 근절 성공률이 모두 90%를 초과하는 것으로 나타났습니다. 광범위한 실험을 통해 AIR의 주요 설계 구성 요소의 필요성을 확인하고, AIR의 적시성과 적절한 수준의 오버헤드를 보여주며, LLM이 생성한 규칙이 여러 도메인에 걸쳐 개발자가 작성한 규칙의 효과에 근접할 수 있음을 입증했습니다. 이러한 결과는 사고 대응이 에이전트 안전을 향상시키기 위한 일급 메커니즘으로서 실현 가능하고 필수적임을 보여줍니다.
Large Language Model (LLM) agents are increasingly deployed in practice across a wide range of autonomous applications. Yet current safety mechanisms for LLM agents focus almost exclusively on preventing failures in advance, providing limited capabilities for responding to, containing, or recovering from incidents after they inevitably arise. In this work, we introduce AIR, the first incident response framework for LLM agent systems. AIR defines a domain-specific language for managing the incident response lifecycle autonomously in LLM agent systems, and integrates it into the agent's execution loop to (1) detect incidents via semantic checks grounded in the current environment state and recent context, (2) guide the agent to execute containment and recovery actions via its tools, and (3) synthesize guardrail rules during eradication to block similar incidents in future executions. We evaluate AIR on three representative agent types. Results show that AIR achieves detection, remediation, and eradication success rates all exceeding 90%. Extensive experiments further confirm the necessity of AIR's key design components, show the timeliness and moderate overhead of AIR, and demonstrate that LLM-generated rules can approach the effectiveness of developer-authored rules across domains. These results show that incident response is both feasible and essential as a first-class mechanism for improving agent safety.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.