SafeHarbor: LLM 에이전트의 안전성을 위한 계층적 메모리 기반 가드레일
SafeHarbor: Hierarchical Memory-Augmented Guardrail for LLM Agent Safety
기반 모델의 빠른 발전으로 인해 대규모 언어 모델(LLM) 에이전트는 점점 더 강력한 도구 활용 능력을 보여주고 있습니다. 그러나 이러한 능력은 심각한 보안 위험을 초래하며, 악의적인 사용자는 에이전트를 조작하여 유해한 콘텐츠를 생성하는 도구를 실행하도록 할 수 있습니다. 기존의 방어 메커니즘은 효과적이지만, 종종 과도한 거부 문제를 야기하여 안전성을 높이는 과정에서 에이전트의 유용성이 무해한 작업에서 저하되는 현상이 발생합니다. 이러한 문제점을 해결하기 위해, 우리는 LLM 에이전트의 의사 결정 경계를 명확하게 설정하도록 설계된 새로운 프레임워크인 extsc{SafeHarbor}를 제안합니다. extsc{SafeHarbor}는 정적인 지침과는 달리, 향상된 적대적 생성 방식을 통해 문맥 인지 방어 규칙을 추출합니다. 우리는 동적 규칙 주입을 위한 로컬 계층적 메모리 시스템을 설계하여, 학습 없이 효율적이고 쉽게 적용 가능한 솔루션을 제공합니다. 또한, 정보 엔트로피 기반의 자체 진화 메커니즘을 도입하여 동적 노드 분할 및 병합을 통해 메모리 구조를 지속적으로 최적화합니다. 광범위한 실험 결과, extsc{SafeHarbor}는 모호한 정상 작업과 명시적인 악의적 공격 모두에서 최첨단 성능을 달성했으며, 특히 GPT-4o에서 63.6%의 높은 정상 작업 유용성을 확보하면서 유해 요청에 대한 강력한 거부율 93% 이상을 유지했습니다. 소스 코드는 https://github.com/ljj-cyber/SafeHarbor 에서 공개적으로 이용할 수 있습니다.
With the rapid evolution of foundation models, Large Language Model (LLM) agents have demonstrated increasingly powerful tool-use capabilities. However, this proficiency introduces significant security risks, as malicious actors can manipulate agents into executing tools to generate harmful content. While existing defensive mechanisms are effective, they frequently suffer from the over-refusal problem, where increased safety strictness compromises the agent's utility on benign tasks. To mitigate this trade-off, we propose \textsc{SafeHarbor}, a novel framework designed to establish precise decision boundaries for LLM agents. Unlike static guidelines, \textsc{SafeHarbor} extracts context-aware defense rules through enhanced adversarial generation. We design a local hierarchical memory system for dynamic rule injection, offering a training-free, efficient, and plug-and-play solution. Furthermore, we introduce an information entropy-based self-evolution mechanism that continuously optimizes the memory structure through dynamic node splitting and merging. Extensive experiments demonstrate that \textsc{SafeHarbor} achieves state-of-the-art performance on both ambiguous benign tasks and explicit malicious attacks, notably attaining a peak benign utility of 63.6\% on GPT-4o while maintaining a robust refusal rate exceeding 93\% against harmful requests. The source code is publicly available at https://github.com/ljj-cyber/SafeHarbor.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.