ShieldNet: 에이전트 시스템의 새로운 공급망 공격에 대한 네트워크 레벨 방어 메커니즘
ShieldNet: Network-Level Guardrails against Emerging Supply-Chain Injections in Agentic Systems
LLM 에이전트 보안에 대한 기존 연구는 주로 프롬프트 주입 및 안전하지 않은 입력/출력 동작에 초점을 맞추고 있습니다. 그러나 에이전트가 점점 더 많은 서드파티 도구 및 MCP 서버에 의존함에 따라, 악성 행위가 겉보기에는 안전한 도구에 내장되어 에이전트 실행을 은밀하게 가로채거나, 민감한 데이터를 유출하거나, 무단 작업을 트리거하는 새로운 유형의 공급망 위협이 등장했습니다. 이러한 위협은 영향력이 커지고 있지만, 현재 그러한 위협을 평가하기 위한 포괄적인 벤치마크는 존재하지 않습니다. 이러한 격차를 해소하기 위해, 우리는 25개 이상의 MITRE ATT&CK 공급망 공격 유형에서 파생된 10,000개 이상의 악성 MCP 도구로 구성된 대규모 벤치마크인 SC-Inject-Bench를 소개합니다. 우리는 기존의 MCP 스캐너 및 의미론적 방어 메커니즘이 이 벤치마크에서 성능이 좋지 않다는 것을 확인했습니다. 이러한 결과를 바탕으로, 우리는 ShieldNet을 제안합니다. ShieldNet은 표면적인 도구 추적 대신 실제 네트워크 상호 작용을 관찰하여 공급망 공격을 탐지하는 네트워크 레벨 방어 프레임워크입니다. ShieldNet은 중간자 공격(MITM) 프록시와 이벤트 추출기를 통합하여 중요한 네트워크 동작을 식별하고, 이러한 동작을 경량 분류기로 처리하여 공격을 탐지합니다. 광범위한 실험 결과, ShieldNet은 우수한 탐지 성능(오탐률 0.8%만으로 최대 0.995의 F-1 점수)을 달성하며, 기존의 MCP 스캐너 및 LLM 기반 방어 메커니즘보다 훨씬 뛰어난 성능을 보입니다.
Existing research on LLM agent security mainly focuses on prompt injection and unsafe input/output behaviors. However, as agents increasingly rely on third-party tools and MCP servers, a new class of supply-chain threats has emerged, where malicious behaviors are embedded in seemingly benign tools, silently hijacking agent execution, leaking sensitive data, or triggering unauthorized actions. Despite their growing impact, there is currently no comprehensive benchmark for evaluating such threats. To bridge this gap, we introduce SC-Inject-Bench, a large-scale benchmark comprising over 10,000 malicious MCP tools grounded in a taxonomy of 25+ attack types derived from MITRE ATT&CK targeting supply-chain threats. We observe that existing MCP scanners and semantic guardrails perform poorly on this benchmark. Motivated by this finding, we propose ShieldNet, a network-level guardrail framework that detects supply-chain poisoning by observing real network interactions rather than surface-level tool traces. ShieldNet integrates a man-in-the-middle (MITM) proxy and an event extractor to identify critical network behaviors, which are then processed by a lightweight classifier for attack detection. Extensive experiments show that ShieldNet achieves strong detection performance (up to 0.995 F-1 with only 0.8% false positives) while introducing little runtime overhead, substantially outperforming existing MCP scanners and LLM-based guardrails.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.