ICED: 해석 가능한 개념 분해를 통한 개념 수준의 머신 언러닝
ICED: Concept-level Machine Unlearning via Interpretable Concept Decomposition
시각-언어 모델(VLMs)에서의 머신 언러닝은 일반적으로 이미지 또는 인스턴스 수준에서 수행되므로, 관련 없는 의미에 영향을 주지 않고 특정 지식을 정확하게 제거하기 어렵습니다. 특히, 하나의 이미지에는 제거해야 할 대상 개념뿐만 아니라 보존해야 할 맥락 정보와 같은 여러 가지 복잡하게 얽힌 개념들이 포함되는 경우가 많아 이러한 문제가 더욱 심각합니다. 본 논문에서는 멀티모달 대규모 언어 모델을 사용하여 언러닝 집합에서 특정 작업에 맞는 압축된 개념 어휘를 구축하는, 해석 가능한 개념 수준의 언러닝 프레임워크를 VLM에 대해 제안합니다. 시각적 표현은 모달리티 정렬뿐만 아니라 희소하고 0이 아닌 값의 조합으로 구성된 의미적 개념으로 분해되어, 세밀한 지식 조작을 위한 명시적인 인터페이스를 제공합니다. 이러한 분해를 기반으로, 본 연구의 방법은 언러닝을 개념 수준의 최적화 문제로 정의하며, 이를 통해 대상 개념을 선택적으로 억제하고, 동일 이미지 내의 비대상 의미와 글로벌 크로스-모달 지식을 보존합니다. 다양한 도메인 내 및 도메인 외 언러닝 환경에서의 광범위한 실험 결과는 본 방법이 더욱 포괄적인 대상 언러닝을 가능하게 하며, 동일 이미지 내의 비대상 지식을 더 잘 보존하고, 기존 VLM 언러닝 방법과 경쟁력 있는 모델 유용성을 유지한다는 것을 보여줍니다.
Machine unlearning in Vision-Language Models (VLMs) is typically performed at the image or instance level, making it difficult to precisely remove target knowledge without affecting unrelated semantics. This issue is especially pronounced since a single image often contains multiple entangled concepts, including both target concepts to be forgotten and contextual information that should be preserved. In this paper, we propose an interpretable concept-level unlearning framework for VLMs, which constructs a compact task-specific concept vocabulary from the forgetting set using a multimodal large language model. In addition to modality alignment, visual representations are decomposed into sparse, nonnegative combinations of semantic concepts, providing an explicit interface for fine-grained knowledge manipulation. Based on this decomposition, our method formulates unlearning as concept-level optimization, where target concepts are selectively suppressed while intra-instance non-target semantics and global cross-modal knowledge are preserved. Extensive experiments across both in-domain and out-of-domain forgetting settings demonstrate that our method enables more comprehensive target forgetting, better preserves non-target knowledge within the same image, and maintains competitive model utility compared with existing VLM unlearning methods.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.