2603.11862v1 Mar 12, 2026 cs.CR

당신이 시켰어요: LLM 에이전트에서 교육 텍스트에 의해 유발되는 개인 정보 유출 측정

You Told Me to Do It: Measuring Instructional Text-induced Private Data Leakage in LLM Agents

Shenyu Dai
Shenyu Dai
Citations: 24
h-index: 2
Ching-yu Kao
Ching-yu Kao
Citations: 176
h-index: 6
Xinfeng Li
Xinfeng Li
Citations: 17
h-index: 2
Tian Qiu
Tian Qiu
Citations: 11
h-index: 2
Pengcheng Zhou
Pengcheng Zhou
Citations: 18
h-index: 3
Eric Hanchen Jiang
Eric Hanchen Jiang
Citations: 23
h-index: 2
Philip Sperl
Philip Sperl
Citations: 274
h-index: 9

높은 권한을 가진 LLM 에이전트는 프로젝트 지침을 읽고 실행하여 작업을 자동화하는 데 점점 더 많이 사용되고 있지만, 이러한 에이전트는 최소한의 보안 감시 하에 터미널 액세스, 파일 시스템 제어 및 외부 네트워크 연결 기능을 제공받습니다. 우리는 이러한 신뢰 모델의 근본적인 취약점을 식별하고 체계적으로 측정합니다. 이를 "신뢰 실행자 딜레마(Trusted Executor Dilemma)"라고 부릅니다. 에이전트는 악의적인 지침을 합법적인 설정 지침과 구별할 수 없기 때문에 문서에 포함된 지침, 심지어 악의적인 지침까지 높은 비율로 실행합니다. 이러한 취약점은 특정 구현상의 오류가 아닌, 지시 사항 준수 설계 패러다임의 구조적인 결과입니다. 우리의 측정을 체계화하기 위해, 우리는 언어적 위장, 구조적 난독화 및 의미적 추상화를 포괄하는 3차원 분류 체계를 정의하고, 500개의 실제 README 파일을 포함하는 재현 가능한 평가를 위한 벤치마크인 "ReadSecBench"를 구축했습니다. 상용으로 배포된 컴퓨터 사용 에이전트에 대한 실험 결과, 5가지 프로그래밍 언어 및 3가지 삽입 위치에서 전체 데이터 유출 성공률이 최대 85%에 달하는 것을 확인했습니다. 시뮬레이션 환경에서 4가지 LLM 패밀리에 대한 교차 모델 평가는 삽입된 지침에 대한 의미적 준수가 모델 패밀리 간에 일관됨을 확인했습니다. 15명의 참가자를 대상으로 한 사용자 연구 결과, 모든 참가자에서 0%의 탐지율을 보였습니다. 또한 12개의 규칙 기반 방어 및 6개의 LLM 기반 방어를 평가한 결과, 어느 범주에서도 허용할 수 없는 오탐율 없이 안정적인 탐지가 이루어지지 않는다는 것을 확인했습니다. 이러한 결과는 에이전트의 기능적 준수와 보안 인식 간의 지속적인 "의미적 안전 격차(Semantic-Safety Gap)"를 정량화하며, 문서에 포함된 지침 삽입이 높은 권한을 가진 LLM 에이전트 배포에 대한 지속적이고 현재까지 해결되지 않은 위협임을 입증합니다.

Original Abstract

High-privilege LLM agents that autonomously process external documentation are increasingly trusted to automate tasks by reading and executing project instructions, yet they are granted terminal access, filesystem control, and outbound network connectivity with minimal security oversight. We identify and systematically measure a fundamental vulnerability in this trust model, which we term the \emph{Trusted Executor Dilemma}: agents execute documentation-embedded instructions, including adversarial ones, at high rates because they cannot distinguish malicious directives from legitimate setup guidance. This vulnerability is a structural consequence of the instruction-following design paradigm, not an implementation bug. To structure our measurement, we formalize a three-dimensional taxonomy covering linguistic disguise, structural obfuscation, and semantic abstraction, and construct \textbf{ReadSecBench}, a benchmark of 500 real-world README files enabling reproducible evaluation. Experiments on the commercially deployed computer-use agent show end-to-end exfiltration success rates up to 85\%, consistent across five programming languages and three injection positions. Cross-model evaluation on four LLM families in a simulation environment confirms that semantic compliance with injected instructions is consistent across model families. A 15-participant user study yields a 0\% detection rate across all participants, and evaluation of 12 rule-based and 6 LLM-based defenses shows neither category achieves reliable detection without unacceptable false-positive rates. Together, these results quantify a persistent \emph{Semantic-Safety Gap} between agents' functional compliance and their security awareness, establishing that documentation-embedded instruction injection is a persistent and currently unmitigated threat to high-privilege LLM agent deployments.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!