2603.04902v1 Mar 05, 2026 cs.CR

AgentSCOPE: 에이전트 워크플로우에서의 맥락적 개인정보 보호 평가

AgentSCOPE: Evaluating Contextual Privacy Across Agentic Workflows

S. Kadhe
S. Kadhe
Citations: 1,514
h-index: 21
K. Murugesan
K. Murugesan
Citations: 977
h-index: 17
Ivoline C. Ngong
Ivoline C. Ngong
Citations: 64
h-index: 4
Justin D. Weisz
Justin D. Weisz
Citations: 3,633
h-index: 26
Amit Dhurandhar
Amit Dhurandhar
Citations: 42
h-index: 4
K. Ramamurthy
K. Ramamurthy
Citations: 6,776
h-index: 33

에이전트 시스템은 점점 더 사용자를 대신하여 일상적인 작업을 수행하며, 이를 위해 캘린더, 이메일, 개인 파일 등에 접근합니다. 이러한 시스템의 개인정보 보호 평가는 주로 입력 및 출력 경계를 중심으로 이루어졌지만, 각 작업에는 에이전트의 질의에서부터 도구의 응답에 이르기까지 여러 중간 정보 흐름이 포함되며, 이는 현재 평가되지 않습니다. 우리는 에이전트 파이프라인의 모든 경계가 잠재적인 개인정보 침해의 지점이자, 개별적으로 평가되어야 한다고 주장합니다. 이를 지원하기 위해, 우리는 맥락적 통합(Contextual Integrity) 원칙에 기반한 '개인정보 흐름 그래프(Privacy Flow Graph)'라는 프레임워크를 소개합니다. 이 프레임워크는 에이전트 실행을 정보 흐름의 시퀀스로 분해하고, 각 흐름에 대한 5가지 맥락적 통합 파라미터를 주석으로 추가하며, 침해를 발생 지점으로 추적합니다. 우리는 8가지 규제 영역에 걸쳐 62개의 멀티-도구 시나리오를 포함하는 벤치마크인 AgentSCOPE를 제시하며, 각 파이프라인 단계에 대한 정확한 데이터(ground truth)를 제공합니다. 7개의 최첨단 LLM에 대한 평가 결과, 파이프라인에서 개인정보 침해가 발생하는 시나리오는 80% 이상으로 나타났습니다. 이는 최종 결과가 깨끗해 보이는(24%) 경우에도 해당하며, 대부분의 침해는 API가 민감한 데이터를 무차별적으로 반환하는 도구 응답 단계에서 발생합니다. 이러한 결과는 출력 수준의 평가만으로는 에이전트 시스템의 개인정보 위험을 크게 과소평가한다는 것을 시사합니다.

Original Abstract

Agentic systems are increasingly acting on users' behalf, accessing calendars, email, and personal files to complete everyday tasks. Privacy evaluation for these systems has focused on the input and output boundaries, but each task involves several intermediate information flows, from agent queries to tool responses, that are not currently evaluated. We argue that every boundary in an agentic pipeline is a site of potential privacy violation and must be assessed independently. To support this, we introduce the Privacy Flow Graph, a Contextual Integrity-grounded framework that decomposes agentic execution into a sequence of information flows, each annotated with the five CI parameters, and traces violations to their point of origin. We present AgentSCOPE, a benchmark of 62 multi-tool scenarios across eight regulatory domains with ground truth at every pipeline stage. Our evaluation across seven state-of-the-art LLMs show that privacy violations in the pipeline occur in over 80% of scenarios, even when final outputs appear clean (24%), with most violations arising at the tool-response stage where APIs return sensitive data indiscriminately. These results indicate that output-level evaluation alone substantially underestimates the privacy risk of agentic systems.

0 Citations
0 Influential
16.5 Altmetric
82.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!