SHRED: 로짓 감쇠를 통한 자체 증류 기반의 보존-집합-무삭제 학습
SHRED: Retain-Set-Free Unlearning via Self-Distillation with Logit Demotion
대규모 언어 모델(LLM)을 위한 머신 언러닝은 개인 정보, 저작권 텍스트 또는 위험한 지식과 같은 저장된 콘텐츠를 비용이 많이 드는 전체 재학습 없이 선택적으로 제거하는 것을 목표로 합니다. 대부분의 기존 방법은 일반 모델의 유용성을 심각하게 저하시키는 것을 방지하기 위해 큐레이션된 예제 집합(보존 집합)을 필요로 하며, 이는 추가적인 데이터 의존성을 야기하여 배포를 복잡하게 만듭니다. 우리는 SHRED(고 놀라움 영역만 사용한 보존 집합이 없는 엔트로피 감쇠를 통한 자체 증류)라는 보존 집합이 없는 언러닝 방법을 제안합니다. SHRED는 핵심적인 통찰력을 기반으로 합니다. 즉, 삭제 집합 내의 모든 토큰이 동일하게 저장된 정보를 포함하는 것은 아닙니다. 고정보 토큰은 모델의 저장된 지식을 집중시키는 반면, 저정보 토큰은 일반적인 언어 능력을 반영합니다. SHRED는 두 단계로 작동합니다. (1) 선택: 삭제 집합 인스턴스에 대한 순방향 패스를 수행하고, 토큰별 자동 회귀 확률을 수집하고, 가장 낮은 확률(가장 높은 섀넌 정보)을 가지는 토큰을 삭제할 위치로 선택합니다. 나머지 위치는 무해한 앵커로 유지됩니다. (2) 훈련: 삭제 위치에서 저장된 토큰의 로짓을 감쇠시키고, 무해한 위치에서는 원래 분포를 유지하는 수정된 KL 목표를 구성합니다. 모델은 단일의 상위 KL 자체 증류 목표를 통해 훈련되며, 이는 동시에 삭제를 유도하고 모델의 유용성을 보존합니다. 우리는 SHRED를 네 가지 표준 언러닝 벤치마크에서 평가하고, SHRED가 삭제 효율성과 모델 유용성 간의 새로운 파레토 최적의 균형을 이루며, 보존 집합에 의존하는 기존 방법보다 우수한 성능을 보인다는 것을 입증했습니다. 분석 결과, SHRED는 재학습 공격 및 멤버십 추론 공격에 강하며, 여러 번의 순차적인 언러닝 실행 후에도 안정적인 유용성을 유지합니다.
Machine unlearning for large language models (LLMs) aims to selectively remove memorized content such as private data, copyrighted text, or hazardous knowledge, without costly full retraining. Most existing methods require a retain set of curated examples to prevent catastrophic degradation of general model utility, creating an extra data dependency that complicates deployment. We propose SHRED (Self-distillation via High-surprisal-only Retain-set-free Entropy Demotion), a retain-set-free unlearning method built on a key insight: not all tokens within a forget set instance carry memorized information equally. High-information tokens concentrate the model's memorized knowledge, while low-information tokens reflect general language competence. SHRED operates in two stages. (1) Selection: We perform a forward pass on a forget set instance, collect per-token autoregressive probabilities, and select the bottom (lowest probability, highest Shannon information) as forget positions; the remaining positions are retained as benign anchors. (2) Training: We construct modified KL targets that demote the memorized token's logit at forget positions while preserving the original distribution at benign positions. The model is then trained via a single top KL self-distillation objective that simultaneously drives forgetting and utility preservation. We evaluate SHRED across four standard unlearning benchmarks and demonstrate that it establishes a new Pareto-optimal trade-off between forget efficacy and model utility, outperforming retain-set-dependent methods. Our analysis shows that SHRED is robust against relearning attacks and membership-inference attacks, and it maintains stable utility even after many sequential unlearning runs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.