2601.14660v1 Jan 21, 2026 cs.CR

NeuroFilter: 대화형 LLM 에이전트에 대한 개인 정보 보호 안전 장치

NeuroFilter: Privacy Guardrails for Conversational LLM Agents

Saswat Das
Saswat Das
Citations: 38
h-index: 4
Ferdinando Fioretto
Ferdinando Fioretto
Citations: 937
h-index: 14

본 연구는 개인 정보 보호 원칙을 준수하는 에이전트 기반의 대규모 언어 모델(LLM)에 대한 계산적 과제를 다룹니다. 기존의 개인 정보 보호 방안은 LLM을 통해 검증 단계를 추가하여 상당한 지연 시간과 비용을 발생시키며, 다중 턴 상호 작용 과정에서 악의적인 조작이나 표면적으로는 무해해 보이는 대화 구조를 통해 무력화될 수 있습니다. 본 논문에서는 중요한 관찰 결과를 제시합니다. 즉, 개인 정보 침해 의도를 나타내는 내부 표현은 선의의 요청과 선형 구조를 통해 분리될 수 있습니다. 이러한 통찰력을 바탕으로, 본 논문에서는 NeuroFilter라는 안전 장치 프레임워크를 제안합니다. NeuroFilter는 맥락적 무결성을 구현하기 위해, 모델의 활성화 공간에서 규범 위반을 간단한 방향으로 매핑하여, 의미 기반 필터가 우회되는 경우에도 위반을 탐지할 수 있도록 합니다. 제안된 필터는 또한 활성화 속도 개념을 활용하여 장기간 대화 중에 발생하는 위협을 감지하도록 확장되었습니다. 활성화 속도는 내부 표현의 누적적인 변화를 턴 단위로 측정합니다. 70억에서 700억 파라미터에 이르는 다양한 모델을 대상으로 15만 건 이상의 상호 작용을 통해 평가한 결과, NeuroFilter는 개인 정보 침해 공격을 효과적으로 탐지하면서도 선의의 요청에 대해서는 오탐이 전혀 발생하지 않았으며, LLM 기반 에이전트 개인 정보 보호 방안에 비해 계산 비용을 수 배 이상 절감하는 성능을 보였습니다.

Original Abstract

This work addresses the computational challenge of enforcing privacy for agentic Large Language Models (LLMs), where privacy is governed by the contextual integrity framework. Indeed, existing defenses rely on LLM-mediated checking stages that add substantial latency and cost, and that can be undermined in multi-turn interactions through manipulation or benign-looking conversational scaffolding. Contrasting this background, this paper makes a key observation: internal representations associated with privacy-violating intent can be separated from benign requests using linear structure. Using this insight, the paper proposes NeuroFilter, a guardrail framework that operationalizes contextual integrity by mapping norm violations to simple directions in the model's activation space, enabling detection even when semantic filters are bypassed. The proposed filter is also extended to capture threats arising during long conversations using the concept of activation velocity, which measures cumulative drift in internal representations across turns. A comprehensive evaluation across over 150,000 interactions and covering models from 7B to 70B parameters, illustrates the strong performance of NeuroFilter in detecting privacy attacks while maintaining zero false positives on benign prompts, all while reducing the computational inference cost by several orders of magnitude when compared to LLM-based agentic privacy defenses.

4 Citations
0 Influential
7 Altmetric
39.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!