대규모 언어 모델(VLMs)은 정말 잊을 수 있는가? 학습에 의존하지 않는 시각적 개념 제거 성능 평가
Can VLMs Truly Forget? Benchmarking Training-Free Visual Concept Unlearning
웹 규모 데이터로 학습된 대규모 언어 모델(VLMs)은 민감하고 저작권으로 보호되는 시각적 개념을 내재하고 있으며, 배포 과정에서 이러한 개념을 제거해야 할 수 있습니다. 기존의 학습 기반 제거 방법은 구조적인 결함점을 가지고 있습니다. 특정 내용을 삭제하기 위한 미세 조정 과정에서 모델의 일반적인 능력이 저하되어, 이후 성능 저하가 제거 절차 자체에 의한 것인지 판단하기 어렵습니다. 학습에 의존하지 않는 접근 방식은 프롬프트 또는 시스템 지침을 통해 특정 개념을 억제함으로써 이러한 문제를 회피하지만, 시각적 작업에서 이러한 접근 방식을 평가하기 위한 엄격한 벤치마크는 존재하지 않습니다. 본 연구에서는 대규모 언어 모델(VLMs)의 학습에 의존하지 않는 시각적 개념 제거 성능을 평가하기 위한 최초의 벤치마크인 VLM-UnBench를 소개합니다. VLM-UnBench는 네 가지 수준의 망각, 7개의 소스 데이터셋, 11개의 개념 축을 포함하며, 세 가지 수준의 탐색 분류법과 다섯 가지 평가 조건을 결합하여 실제 망각과 지침 준수 여부를 구분합니다. 8가지 평가 환경과 13가지 VLM 구성에 대한 실험 결과, 현실적인 제거 프롬프트는 대부분의 경우 지침이 없는 기준 수준과 유사한 성능을 보입니다. 의미 있는 성능 개선은 모델에게 목표 개념을 명시적으로 알려주는 이상적인 조건에서만 나타났습니다. 객체 및 장면 개념은 억제에 가장 강한 저항성을 보이며, 강력한 지침 기반 모델은 명시적인 제거 지침에도 불구하고 여전히 기능을 유지합니다. 이러한 결과는 프롬프트 수준의 억제와 실제 시각적 개념 제거 사이의 뚜렷한 격차를 보여줍니다.
VLMs trained on web-scale data retain sensitive and copyrighted visual concepts that deployment may require removing. Training-based unlearning methods share a structural flaw: fine-tuning on a narrow forget set degrades general capabilities before unlearning begins, making it impossible to attribute subsequent performance drops to the unlearning procedure itself. Training-free approaches sidestep this by suppressing concepts through prompts or system instructions, but no rigorous benchmark exists for evaluating them on visual tasks. We introduce VLM-UnBench, the first benchmark for training-free visual concept unlearning in VLMs. It covers four forgetting levels, 7 source datasets, and 11 concept axes, and pairs a three-level probe taxonomy with five evaluation conditions to separate genuine forgetting from instruction compliance. Across 8 evaluation settings and 13 VLM configurations, realistic unlearning prompts leave forget accuracy near the no-instruction baseline; meaningful reductions appear only under oracle conditions that disclose the target concept to the model. Object and scene concepts are the most resistant to suppression, and stronger instruction-tuned models remain capable despite explicit forget instructions. These results expose a clear gap between prompt-level suppression and true visual concept erasure.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.