SEM: 희소 임베딩 변조를 이용한 비전-언어 모델의 사후 편향 제거
SEM: Sparse Embedding Modulation for Post-Hoc Debiasing of Vision-Language Models
CLIP과 같이 비전과 언어를 연결하는 모델은 다중 모드 AI의 핵심 구성 요소이지만, 대규모의 정제되지 않은 학습 데이터는 심각한 사회적 편향과 부수적인 편향을 야기합니다. 기존의 사후 편향 제거 방법은 종종 CLIP 임베딩 공간 내에서 직접 작동하며, 이 공간에서는 편향 정보와 작업 관련 정보가 매우 복잡하게 얽혀 있습니다. 이러한 복잡성으로 인해 편향을 제거하면서 의미적 충실도를 유지하기 어렵습니다. 본 연구에서는 희소 오토인코더(SAE)의 잠재 공간에서 작동하는 사후, 제로샷 편향 제거 프레임워크인 Sparse Embedding Modulation (SEM)을 제안합니다. SEM은 CLIP 텍스트 임베딩을 분리된 특징으로 분해하여 편향과 관련된 뉴런을 식별하고 조절하는 동시에, 쿼리와 관련된 뉴런은 보존합니다. 이를 통해 더욱 정교하고 비선형적인 개입이 가능합니다. 네 가지 벤치마크 데이터셋과 두 가지 CLIP 백본에서 SEM은 검색 및 제로샷 분류에서 상당한 공정성 향상을 달성했습니다. 우리의 결과는 희소 잠재 표현이 비전-언어 모델의 사후 편향 제거를 위한 효과적인 기반을 제공한다는 것을 보여줍니다.
Models that bridge vision and language, such as CLIP, are key components of multimodal AI, yet their large-scale, uncurated training data introduce severe social and spurious biases. Existing post-hoc debiasing methods often operate directly in the dense CLIP embedding space, where bias and task-relevant information are highly entangled. This entanglement limits their ability to remove bias without degrading semantic fidelity. In this work, we propose Sparse Embedding Modulation (SEM), a post-hoc, zero-shot debiasing framework that operates in a Sparse Autoencoder (SAE) latent space. By decomposing CLIP text embeddings into disentangled features, SEM identifies and modulates bias-relevant neurons while preserving query-relevant ones. This enables more precise, non-linear interventions. Across four benchmark datasets and two CLIP backbones, SEM achieves substantial fairness gains in retrieval and zero-shot classification. Our results demonstrate that sparse latent representations provide an effective foundation for post-hoc debiasing of vision-language models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.