LLM 에이전트가 데이터를 유출할 수 있습니다: 백도어 악용 도구 사용을 통한 데이터 탈취
Your LLM Agent Can Leak Your Data: Data Exfiltration via Backdoored Tool Use
도구 사용이 가능한 대규모 언어 모델(LLM) 에이전트는 민감한 작업 흐름을 지원하기 위해 점점 더 많이 사용되고 있으며, 정보 검색, 외부 API 접근 및 세션 메모리 관리를 위해 도구 호출에 의존합니다. 기존 연구에서는 다양한 위협이 검토되었지만, 백도어 악용 에이전트가 일으킬 수 있는 체계적인 데이터 탈취의 위험성은 아직 충분히 연구되지 않았습니다. 본 연구에서는 백도어 악용 에이전트에 의미론적 트리거를 삽입하여 데이터를 탈취하는 공격 방법인 Back-Reveal을 제시합니다. 트리거가 활성화되면, 백도어 악용 에이전트는 저장된 사용자 컨텍스트를 검색하기 위해 메모리 접근 도구 호출을 실행하고, 위장된 검색 도구 호출을 통해 데이터를 외부로 유출합니다. 또한, 다중 턴 상호작용이 데이터 탈취의 영향을 증폭시킨다는 것을 보여줍니다. 공격자가 제어하는 검색 응답은 후속 에이전트의 행동과 사용자 상호작용을 미묘하게 조작하여 시간이 지남에 따라 지속적이고 누적적인 정보 유출을 가능하게 합니다. 실험 결과는 도구 접근 권한을 가진 LLM 에이전트에 심각한 취약점이 존재하며, 데이터 탈취를 목적으로 하는 백도어에 대한 방어책이 필요하다는 것을 보여줍니다.
Tool-use large language model (LLM) agents are increasingly deployed to support sensitive workflows, relying on tool calls for retrieval, external API access, and session memory management. While prior research has examined various threats, the risk of systematic data exfiltration by backdoored agents remains underexplored. In this work, we present Back-Reveal, a data exfiltration attack that embeds semantic triggers into fine-tuned LLM agents. When triggered, the backdoored agent invokes memory-access tool calls to retrieve stored user context and exfiltrates it via disguised retrieval tool calls. We further demonstrate that multi-turn interaction amplifies the impact of data exfiltration, as attacker-controlled retrieval responses can subtly steer subsequent agent behavior and user interactions, enabling sustained and cumulative information leakage over time. Our experimental results expose a critical vulnerability in LLM agents with tool access and highlight the need for defenses against exfiltration-oriented backdoors.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.