LoopTrap: LLM 에이전트에 대한 종료 유도 공격
LoopTrap: Termination Poisoning Attacks on LLM Agents
최신 LLM 에이전트는 복잡한 작업을 수행하기 위해 반복적인 실행 루프를 통해 작동하며, 작업을 완료했는지 판단하기 위해 반복적으로 추론하고, 행동하며, 진행 상황을 자체 평가합니다. 본 연구에서는 이러한 자율적인 루프가 자율성을 촉진하는 동시에 중요한 위험을 초래한다는 것을 보여줍니다. 악의적인 프롬프트를 에이전트의 컨텍스트에 주입함으로써, 공격자는 에이전트의 종료 판단을 왜곡하여 작업이 완료되지 않았다고 믿게 만들 수 있으며, 이는 무한한 연산으로 이어질 수 있습니다. 이러한 위협을 이해하기 위해, 우리는 이를 '종료 유도 공격(Termination Poisoning)'이라고 정의하고 체계적으로 분석했으며, 10가지 대표적인 공격 전략을 설계했습니다. 8개의 LLM 에이전트와 60개의 작업에 대한 실증 연구를 통해, 다양한 LLM 에이전트가 성공적인 전략을 결정하는 뚜렷한 행동 특징을 보임을 확인했습니다. 이러한 전이 가능한 패턴은 이전에 보지 못한 에이전트 및 작업에 대한 효과적인 공격을 설계하는 데 유용한 지침이 될 수 있으며, 수동으로 설계된 템플릿을 넘어 확장 가능한 레드 팀 활동을 가능하게 합니다. 이러한 통찰력을 바탕으로, 우리는 에이전트의 행동 경향을 활용하여 대상별 악성 프롬프트를 생성하는 자동화된 레드 팀 프레임워크인 LoopTrap을 소개합니다. LoopTrap은 먼저 가벼운 프로빙을 통해 대상 에이전트의 행동 프로필을 4가지 취약성 차원에서 구성합니다. 그런 다음, 적응형 트랩 합성을 수행하여 가장 효과적인 전략으로 연결하고 자체 점수 메커니즘을 통해 최적의 주입을 선택합니다. 마지막으로, 성공적인 트랩은 재사용 가능한 스킬 라이브러리로 추출하고, 실패한 시도는 자체 반성을 통해 개선되어 지속적인 발전을 보장합니다. 광범위한 평가 결과, LoopTrap은 8개의 주요 에이전트에서 평균 3.57배의 단계 증폭을 달성했으며, 최대 25배에 달했습니다.
Modern LLM agents solve complex tasks by operating in iterative execution loops, where they repeatedly reason, act, and self-evaluate progress to determine when a task is complete. In this work, we show that while this self-directed loop facilitates autonomy, it also introduces a critical risk: by injecting malicious prompts into the agent's context, an adversary can distort the agent's termination judgment, making it believe the task remains incomplete and leading to unbounded computation.To understand this threat, we define and systematically characterize it as Termination Poisoning and design 10 representative attack strategies. Through a empirical study spanning 8 LLM agents and 60 tasks, we demonstrate that different LLM agents exhibit distinct behavioral signatures that determine which strategies succeed. These transferable patterns can serve as principled guidance for crafting effective attacks against previously unseen agents and tasks, enabling scalable red-teaming beyond manually designed templates. Building on these insights, we introduce LoopTrap, an automated red-teaming framework that synthesizes target-specific malicious prompts by exploiting agent behavioral tendencies. LoopTrap first constructs a behavioral profile of the target agent along four vulnerability dimensions via lightweight probing. It then performs adaptive trap synthesis, routing to the most effective strategy and selecting optimal injections via a self-scoring mechanism. Finally, successful traps are abstracted into a reusable skill library, while failed attempts are refined through self-reflection, ensuring continuous improvement. Extensive evaluation shows that LoopTrap achieves an average of 3.57$\times$ step amplification across 8 mainstream agents, with a peak of 25$\times$.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.