2605.02187v1 May 04, 2026 cs.CR

정렬만으로는 충분하지 않을 때: LLM 에이전트에 대한 응답 경로 공격

When Alignment Isn't Enough: Response-Path Attacks on LLM Agents

Dongdong She
Dongdong She
Citations: 14
h-index: 2
Yuchong Xie
Yuchong Xie
Citations: 242
h-index: 3
Ming Wen
Ming Wen
Citations: 51
h-index: 3
Zhixiang Zhang
Zhixiang Zhang
Citations: 39
h-index: 3
Zesen Liu
Zesen Liu
Citations: 12
h-index: 2
Mingyu Luo
Mingyu Luo
Citations: 56
h-index: 4
Zihan Zhang
Zihan Zhang
Citations: 1
h-index: 1
Dung Hiu Hilton Yeung
Dung Hiu Hilton Yeung
Citations: 0
h-index: 0
Wai Ip Lai
Wai Ip Lai
Citations: 0
h-index: 0
Ping Chen
Ping Chen
Citations: 21
h-index: 2

Bring-Your-Own-Key (BYOK) 에이전트 아키텍처는 사용자가 LLM 트래픽을 타사 릴레이를 통해 전송할 수 있도록 하여 중요한 무결성 격차를 발생시킵니다. 악의적인 릴레이는 LLM의 응답이 생성된 후, 에이전트 실행 전에 수정할 수 있습니다. 본 연구에서는 이러한 사후 정렬 조작 위협을 공식화하고, 엔드투엔드 무결성이 없을 경우, 릴레이가 다운스트림 메시지를 관찰, 억제 또는 교체할 수 있으며, 심지어 완벽하게 정렬된 LLM도 이러한 공격에 효과적으로 대응할 수 없음을 보여줍니다. 우리는 이러한 위협을 릴레이 조작 공격(RTA)으로 구현했으며, 이는 다단계 전략적 재작성, 최소한의 보안 관련 수정, 그리고 조작된 출력을 상위 LLM에 재제출하여 은밀하게 복구하는 방식으로 작동합니다. AgentDojo와 ASB 환경에서 6개의 LLM을 사용하여 RTA를 실험한 결과, 공격 성공률이 최대 99.1%에 달했으며, 이는 프롬프트 주입 기반의 기존 방법보다 우수한 성능을 보입니다. OpenClaw 및 Claude Code에 대한 사례 연구를 통해 실제 적용 가능성을 입증했으며, 4가지 방어 기법에 대한 평가 결과, 어떤 방어 기법도 RTA를 완전히 막지는 못했습니다. 마지막으로, RTA를 완화하면서 에이전트의 유용성을 유지하는 시간 기반 탐지 방어 기법을 제안합니다.

Original Abstract

Bring-Your-Own-Key (BYOK) agent architectures let users route LLM traffic through third-party relays, creating a critical integrity gap: a malicious relay can modify an aligned LLM response after generation but before agent execution. We formalize this post-alignment tampering threat and show that, without end-to-end integrity, the relay can observe, suppress, or replace downstream messages, making even perfectly aligned LLMs ineffective against such attacks. We instantiate this threat as the Relay Tampering Attack (RTA), which performs multi-round strategic rewriting, minimal security-critical edits, and stealth restoration by resubmitting tampered outputs to the upstream LLM. Across AgentDojo and ASB with six LLMs, RTA achieves up to 99.1% attack success, outperforming prompt-injection baselines with modest overhead. Case studies on OpenClaw and Claude Code demonstrate real-world feasibility, and evaluations of four defenses show that none fully prevent RTA. Finally, we propose a time-based detection defense that mitigates RTA while preserving agent utility.

0 Citations
0 Influential
2 Altmetric
10.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!