2602.07517v1 Feb 07, 2026 cs.CR

MemPot: 최적화된 허니팟을 활용한 메모리 추출 공격 방어

MemPot: Defending Against Memory Extraction Attack with Optimized Honeypots

Jiaheng Zhang
Jiaheng Zhang
Citations: 160
h-index: 4
Yuhao Wang
Yuhao Wang
Citations: 16
h-index: 2
Shengfang Zhai
Shengfang Zhai
Citations: 313
h-index: 7
Guanghao Jin
Guanghao Jin
Citations: 13
h-index: 1
Yinpeng Dong
Yinpeng Dong
Citations: 49
h-index: 2
Linyi Yang
Linyi Yang
Citations: 358
h-index: 4

대규모 언어 모델(LLM) 기반 에이전트는 복잡하고 목표 지향적인 작업을 처리하기 위해 외부 및 내부 메모리 시스템을 사용하지만, 이는 심각한 데이터 추출 공격에 취약하게 만듭니다. 본 논문에서는 메모리에 최적화된 허니팟을 주입하여 메모리 추출 공격에 대한 최초의 이론적으로 검증된 방어 프레임워크인 MemPot을 제안합니다. MemPot은 두 단계의 최적화 과정을 통해 공격자의 검색 확률을 극대화하면서도 정상 사용자가 인지하기 어려운 트랩 문서를 생성합니다. 우리는 탐지 과정을 Wald의 순차적 확률 비율 검정(SPRT)으로 모델링하고, MemPot이 최적의 정적 탐지기에 비해 평균 샘플링 횟수가 더 적다는 것을 이론적으로 증명합니다. 실험적으로, MemPot은 최첨단 기준 성능보다 훨씬 뛰어난 성능을 보이며, 낮은 오탐율 제약 조건 하에서 50% 향상된 탐지 AUROC와 80% 증가된 참 양성 비율을 달성했습니다. 또한, 우리의 실험 결과는 MemPot이 추가적인 온라인 추론 지연 시간을 발생시키지 않으며, 표준 작업에서 에이전트의 유용성을 유지한다는 것을 확인시켜, 안전성, 무해성 및 효율성 측면에서 우수성을 입증합니다.

Original Abstract

Large Language Model (LLM)-based agents employ external and internal memory systems to handle complex, goal-oriented tasks, yet this exposes them to severe extraction attacks, and effective defenses remain lacking. In this paper, we propose MemPot, the first theoretically verified defense framework against memory extraction attacks by injecting optimized honeypots into the memory. Through a two-stage optimization process, MemPot generates trap documents that maximize the retrieval probability for attackers while remaining inconspicuous to benign users. We model the detection process as Wald's Sequential Probability Ratio Test (SPRT) and theoretically prove that MemPot achieves a lower average number of sampling rounds compared to optimal static detectors. Empirically, MemPot significantly outperforms state-of-the-art baselines, achieving a 50% improvement in detection AUROC and an 80% increase in True Positive Rate under low False Positive Rate constraints. Furthermore, our experiments confirm that MemPot incurs zero additional online inference latency and preserves the agent's utility on standard tasks, verifying its superiority in safety, harmlessness, and efficiency.

0 Citations
0 Influential
3.5 Altmetric
17.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!