2603.04894v1 Mar 05, 2026 cs.AI

차등 프라이버시를 적용한 다중 모드 컨텍스트 학습

Differentially Private Multimodal In-Context Learning

Ivoline C. Ngong
Ivoline C. Ngong
Citations: 74
h-index: 4
Zarreen Reza
Zarreen Reza
Citations: 11
h-index: 2
Joseph P. Near
Joseph P. Near
Citations: 1,363
h-index: 20

시각-언어 모델은 의료 영상 및 개인 사진과 같은 민감한 영역에 점점 더 많이 적용되고 있지만, 기존의 차등 프라이버시 기반 컨텍스트 학습 방법은 처리해야 하는 토큰 수가 증가함에 따라 프라이버시 비용이 증가하기 때문에 소량의 데이터만 사용하는 텍스트 기반 환경에 한정되어 있습니다. 본 논문에서는 수백 개의 예시 데이터를 활성화 공간에서의 간결한 작업 벡터로 집계하여, 형식적인 (ε, δ)-차등 프라이버시를 제공하는 다중 모드 컨텍스트 학습을 가능하게 하는 첫 번째 프레임워크인 Differentially Private Multimodal Task Vectors (DP-MTV)를 제안합니다. DP-MTV는 개인 데이터를 분리된 청크로 나누고, 각 레이어에 클리핑을 적용하여 민감도를 제한하며, 집계된 결과에 보정된 노이즈를 추가합니다. 이를 통해 단일 노이즈 추가만으로 무제한의 추론 쿼리를 지원할 수 있습니다. 우리는 세 가지 VLM 아키텍처에 대한 8개의 벤치마크에서 DP-MTV를 평가했으며, 보조 데이터 유무에 관계없이 배포할 수 있음을 확인했습니다. ε=1.0에서 DP-MTV는 VizWiz 데이터셋에서 55%의 비프라이버시 모델 대비 50%의 성능을 보였으며, 이는 35%의 제로샷 성능보다 높은 수준이며, 의미 있는 프라이버시 제약 조건 하에서 컨텍스트 학습의 대부분의 이점을 유지하는 것을 의미합니다.

Original Abstract

Vision-language models are increasingly applied to sensitive domains such as medical imaging and personal photographs, yet existing differentially private methods for in-context learning are limited to few-shot, text-only settings because privacy cost scales with the number of tokens processed. We present Differentially Private Multimodal Task Vectors (DP-MTV), the first framework enabling many-shot multimodal in-context learning with formal $(\varepsilon, δ)$-differential privacy by aggregating hundreds of demonstrations into compact task vectors in activation space. DP-MTV partitions private data into disjoint chunks, applies per-layer clipping to bound sensitivity, and adds calibrated noise to the aggregate, requiring only a single noise addition that enables unlimited inference queries. We evaluate on eight benchmarks across three VLM architectures, supporting deployment with or without auxiliary data. At $\varepsilon=1.0$, DP-MTV achieves 50% on VizWiz compared to 55% non-private and 35% zero-shot, preserving most of the gain from in-context learning under meaningful privacy constraints.

1 Citations
1 Influential
10 Altmetric
53.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!