함수 호출 공격: 에이전트 모델의 기능 탈취를 통한 새로운 위협
Breaking MCP with Function Hijacking Attacks: Novel Threats for Function Calling and Agentic Models
에이전트 AI의 발전은 외부 함수를 호출하여 AI 기반 시스템의 기능을 확장하도록 설계된 대규모 언어 모델(LLM)에 대한 주목을 불러일으켰습니다. 기존 연구에서는 LLM의 취약점을 보여주기 위해 인젝션 및 탈옥 공격이 광범위하게 연구되었으며, 에이전트 모델의 확장된 기능은 함수 호출 인터페이스를 통해 추가적인 취약점을 야기합니다. 최근 LLM 보안 연구에서는 함수 호출이 데이터 위변조 및 도난, 무한 루프와 같은 혼란스러운 행동, 그리고 탈옥 공격과 유사한 유해 콘텐츠 생성으로 악용될 수 있다는 사실이 밝혀졌습니다. 본 논문에서는 에이전트 모델의 도구 선택 과정을 조작하여 공격자가 선택한 특정 함수를 호출하도록 강제하는 새로운 함수 탈취 공격(FHA)을 소개합니다. 기존 공격은 함수 호출 작업에 대한 모델의 의미적 선호도에 초점을 맞추는 반면, FHA는 컨텍스트 의미에 크게 의존하지 않으며 다양한 함수 집합에 대해 견고하여 다양한 도메인에 적용될 수 있음을 보여줍니다. 또한, FHA는 범용 적대적 함수를 생성하도록 훈련될 수 있으며, 이를 통해 단일 함수 공격으로 여러 쿼리와 페이로드 구성에서 도구 선택을 탈취할 수 있음을 입증합니다. 우리는 지시 및 추론 변형을 포함한 5가지 모델에 대한 실험을 수행했으며, 기존 BFCL 데이터셋에서 70%에서 100%의 공격 성공률(ASR)을 달성했습니다. 우리의 연구 결과는 에이전트 시스템에 대한 강력한 안전 장치 및 보안 모듈의 필요성을 더욱 강조합니다.
The growth of agentic AI has drawn significant attention to function calling Large Language Models (LLMs), which are designed to extend the capabilities of AI-powered system by invoking external functions. Injection and jailbreaking attacks have been extensively explored to showcase the vulnerabilities of LLMs to user prompt manipulation. The expanded capabilities of agentic models introduce further vulnerabilities via their function calling interface. Recent work in LLM security showed that function calling can be abused, leading to data tampering and theft, causing disruptive behavior such as endless loops, or causing LLMs to produce harmful content in the style of jailbreaking attacks. This paper introduces a novel function hijacking attack (FHA) that manipulates the tool selection process of agentic models to force the invocation of a specific, attacker-chosen function. While existing attacks focus on semantic preference of the model for function-calling tasks, we show that FHA is largely agnostic to the context semantics and robust to the function sets, making it applicable across diverse domains. We further demonstrate that FHA can be trained to produce universal adversarial functions, enabling a single attacked function to hijack tool selection across multiple queries and payload configurations. We conducted experiments on 5 different models, including instructed and reasoning variants, reaching 70% to 100% ASR over the established BFCL dataset. Our findings further demonstrate the need for strong guardrails and security modules for agentic systems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.