2605.05704v1 May 07, 2026 cs.CR

SafeHarbor: LLM 에이전트의 안전성을 위한 계층적 메모리 기반 가드레일

SafeHarbor: Hierarchical Memory-Augmented Guardrail for LLM Agent Safety

Deyue Zhang
Deyue Zhang
Citations: 158
h-index: 4
Xiangzheng Zhang
Xiangzheng Zhang
Citations: 20
h-index: 3
Zonghao Ying
Zonghao Ying
Citations: 21
h-index: 3
Dongdong Yang
Dongdong Yang
Citations: 71
h-index: 3
Quanchen Zou
Quanchen Zou
Citations: 24
h-index: 2
Zhe Liu
Zhe Liu
Citations: 18
h-index: 3
Wenxin Zhang
Wenxin Zhang
Citations: 50
h-index: 3
Hao Peng
Hao Peng
Citations: 18
h-index: 2

기반 모델의 빠른 발전으로 인해 대규모 언어 모델(LLM) 에이전트는 점점 더 강력한 도구 활용 능력을 보여주고 있습니다. 그러나 이러한 능력은 심각한 보안 위험을 초래하며, 악의적인 사용자는 에이전트를 조작하여 유해한 콘텐츠를 생성하는 도구를 실행하도록 할 수 있습니다. 기존의 방어 메커니즘은 효과적이지만, 종종 과도한 거부 문제를 야기하여 안전성을 높이는 과정에서 에이전트의 유용성이 무해한 작업에서 저하되는 현상이 발생합니다. 이러한 문제점을 해결하기 위해, 우리는 LLM 에이전트의 의사 결정 경계를 명확하게 설정하도록 설계된 새로운 프레임워크인 extsc{SafeHarbor}를 제안합니다. extsc{SafeHarbor}는 정적인 지침과는 달리, 향상된 적대적 생성 방식을 통해 문맥 인지 방어 규칙을 추출합니다. 우리는 동적 규칙 주입을 위한 로컬 계층적 메모리 시스템을 설계하여, 학습 없이 효율적이고 쉽게 적용 가능한 솔루션을 제공합니다. 또한, 정보 엔트로피 기반의 자체 진화 메커니즘을 도입하여 동적 노드 분할 및 병합을 통해 메모리 구조를 지속적으로 최적화합니다. 광범위한 실험 결과, extsc{SafeHarbor}는 모호한 정상 작업과 명시적인 악의적 공격 모두에서 최첨단 성능을 달성했으며, 특히 GPT-4o에서 63.6%의 높은 정상 작업 유용성을 확보하면서 유해 요청에 대한 강력한 거부율 93% 이상을 유지했습니다. 소스 코드는 https://github.com/ljj-cyber/SafeHarbor 에서 공개적으로 이용할 수 있습니다.

Original Abstract

With the rapid evolution of foundation models, Large Language Model (LLM) agents have demonstrated increasingly powerful tool-use capabilities. However, this proficiency introduces significant security risks, as malicious actors can manipulate agents into executing tools to generate harmful content. While existing defensive mechanisms are effective, they frequently suffer from the over-refusal problem, where increased safety strictness compromises the agent's utility on benign tasks. To mitigate this trade-off, we propose \textsc{SafeHarbor}, a novel framework designed to establish precise decision boundaries for LLM agents. Unlike static guidelines, \textsc{SafeHarbor} extracts context-aware defense rules through enhanced adversarial generation. We design a local hierarchical memory system for dynamic rule injection, offering a training-free, efficient, and plug-and-play solution. Furthermore, we introduce an information entropy-based self-evolution mechanism that continuously optimizes the memory structure through dynamic node splitting and merging. Extensive experiments demonstrate that \textsc{SafeHarbor} achieves state-of-the-art performance on both ambiguous benign tasks and explicit malicious attacks, notably attaining a peak benign utility of 63.6\% on GPT-4o while maintaining a robust refusal rate exceeding 93\% against harmful requests. The source code is publicly available at https://github.com/ljj-cyber/SafeHarbor.

0 Citations
0 Influential
31.729550745277 Altmetric
158.6 Score
Original PDF
6

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!