차등 프라이버시를 적용한 다중 모드 컨텍스트 학습
Differentially Private Multimodal In-Context Learning
시각-언어 모델은 의료 영상 및 개인 사진과 같은 민감한 영역에 점점 더 많이 적용되고 있지만, 기존의 차등 프라이버시 기반 컨텍스트 학습 방법은 처리해야 하는 토큰 수가 증가함에 따라 프라이버시 비용이 증가하기 때문에 소량의 데이터만 사용하는 텍스트 기반 환경에 한정되어 있습니다. 본 논문에서는 수백 개의 예시 데이터를 활성화 공간에서의 간결한 작업 벡터로 집계하여, 형식적인 (ε, δ)-차등 프라이버시를 제공하는 다중 모드 컨텍스트 학습을 가능하게 하는 첫 번째 프레임워크인 Differentially Private Multimodal Task Vectors (DP-MTV)를 제안합니다. DP-MTV는 개인 데이터를 분리된 청크로 나누고, 각 레이어에 클리핑을 적용하여 민감도를 제한하며, 집계된 결과에 보정된 노이즈를 추가합니다. 이를 통해 단일 노이즈 추가만으로 무제한의 추론 쿼리를 지원할 수 있습니다. 우리는 세 가지 VLM 아키텍처에 대한 8개의 벤치마크에서 DP-MTV를 평가했으며, 보조 데이터 유무에 관계없이 배포할 수 있음을 확인했습니다. ε=1.0에서 DP-MTV는 VizWiz 데이터셋에서 55%의 비프라이버시 모델 대비 50%의 성능을 보였으며, 이는 35%의 제로샷 성능보다 높은 수준이며, 의미 있는 프라이버시 제약 조건 하에서 컨텍스트 학습의 대부분의 이점을 유지하는 것을 의미합니다.
Vision-language models are increasingly applied to sensitive domains such as medical imaging and personal photographs, yet existing differentially private methods for in-context learning are limited to few-shot, text-only settings because privacy cost scales with the number of tokens processed. We present Differentially Private Multimodal Task Vectors (DP-MTV), the first framework enabling many-shot multimodal in-context learning with formal $(\varepsilon, δ)$-differential privacy by aggregating hundreds of demonstrations into compact task vectors in activation space. DP-MTV partitions private data into disjoint chunks, applies per-layer clipping to bound sensitivity, and adds calibrated noise to the aggregate, requiring only a single noise addition that enables unlimited inference queries. We evaluate on eight benchmarks across three VLM architectures, supporting deployment with or without auxiliary data. At $\varepsilon=1.0$, DP-MTV achieves 50% on VizWiz compared to 55% non-private and 35% zero-shot, preserving most of the gain from in-context learning under meaningful privacy constraints.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.