읽는 모든 것을 믿지 마세요: 오해의 소지가 있는 도구 설명을 통해 MCP 동작을 이해하고 측정하는 연구
Don't believe everything you read: Understanding and Measuring MCP Behavior under Misleading Tool Descriptions
모델 컨텍스트 프로토콜(MCP)은 대규모 언어 모델이 자연어 설명을 통해 외부 도구를 호출할 수 있도록 하여, 많은 AI 에이전트 애플리케이션의 기반이 됩니다. 그러나 MCP는 문서화된 도구 동작과 실제 코드 실행 간의 일관성을 강제하지 않으며, 특히 MCP 서버는 종종 광범위한 시스템 권한으로 실행됩니다. 이러한 간극은 아직 광범위하게 연구되지 않은 보안 위험을 초래합니다. 본 연구에서는 외부적으로 제시된 도구 설명과 기본 구현 간의 불일치가 지능형 에이전트의 정신 모델과 의사 결정 행동을 체계적으로 어떻게 변화시키는지 연구합니다. 특히, MCP 생태계에서 설명과 코드의 불일치에 대한 최초의 대규모 연구를 제시합니다. 자동화된 정적 분석 프레임워크를 설계하고 이를 36개 범주에 걸쳐 10,240개의 실제 MCP 서버에 적용했습니다. 그 결과, 대부분의 서버는 일관성을 보이는 반면, 약 13%는 문서화되지 않은 특권 작업, 숨겨진 상태 변경 또는 무단 금융 거래를 가능하게 하는 상당한 불일치를 보입니다. 또한, 애플리케이션 범주, 인기 수준 및 MCP 마켓플레이스에 따른 체계적인 차이를 관찰했습니다. 본 연구의 결과는 설명과 코드의 불일치가 MCP 기반 AI 에이전트에서 구체적이고 광범위한 공격 경로가 되며, 향후 에이전트 생태계에서 체계적인 감사 및 더 강력한 투명성 보장이 필요하다는 것을 보여줍니다.
The Model Context Protocol (MCP) enables large language models to invoke external tools through natural-language descriptions, forming the foundation of many AI agent applications. However, MCP does not enforce consistency between documented tool behavior and actual code execution, even though MCP Servers often run with broad system privileges. This gap introduces a largely unexplored security risk. We study how mismatches between externally presented tool descriptions and underlying implementations systematically shape the mental models and decision-making behavior of intelligent agents. Specifically, we present the first large-scale study of description-code inconsistency in the MCP ecosystem. We design an automated static analysis framework and apply it to 10,240 real-world MCP Servers across 36 categories. Our results show that while most servers are highly consistent, approximately 13% exhibit substantial mismatches that can enable undocumented privileged operations, hidden state mutations, or unauthorized financial actions. We further observe systematic differences across application categories, popularity levels, and MCP marketplaces. Our findings demonstrate that description-code inconsistency is a concrete and prevalent attack surface in MCP-based AI agents, and motivate the need for systematic auditing and stronger transparency guarantees in future agent ecosystems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.