2601.15111v1 Jan 21, 2026 cs.LG

정보 분해를 통한 언어 모델 학습 제거 감사

Auditing Language Model Unlearning via Information Decomposition

Iryna Gurevych
Iryna Gurevych
Citations: 1,040
h-index: 16
Anmol Goel
Anmol Goel
Citations: 16
h-index: 2
Alan Ritter
Alan Ritter
Citations: 0
h-index: 0

본 연구는 현재 언어 모델의 학습 제거 기술에서 발견되는 중요한 한계를 지적합니다. 언어 모델 학습 제거 알고리즘이 겉으로 보기에는 성공적인 것처럼 보이지만, 제거된 데이터에 대한 정보가 여전히 내부 표현에서 선형적으로 복구될 수 있습니다. 이러한 불일치를 체계적으로 평가하기 위해, 부분 정보 분해(PID)를 사용한 학습 제거 감사에 대한 해석 가능하고 정보 이론적인 프레임워크를 제시합니다. 학습 제거 전후의 모델 표현을 비교하여, 제거된 데이터와의 상호 정보를 서로 다른 구성 요소로 분해하고, 학습되지 않은 정보와 잔여 지식의 개념을 형식화합니다. 분석 결과, 모델 간에 공유되는 중복 정보는 학습 제거 후에도 지속되는 잔여 지식이며, 이는 알려진 적대적 재구성 공격에 대한 취약성과 관련이 있음을 확인했습니다. 이러한 통찰력을 바탕으로, 입력 데이터의 민감도를 평가하는 표현 기반 위험 점수를 제안합니다. 이를 통해 추론 시 민감한 입력에 대한 거부 결정을 내릴 수 있으며, 이는 개인 정보 유출을 완화하는 실질적인 메커니즘을 제공합니다. 본 연구는 학습 제거에 대한 원칙적인 표현 수준의 감사를 도입하며, 언어 모델의 안전한 배포를 위한 이론적 통찰력과 실용적인 도구를 제공합니다.

Original Abstract

We expose a critical limitation in current approaches to machine unlearning in language models: despite the apparent success of unlearning algorithms, information about the forgotten data remains linearly decodable from internal representations. To systematically assess this discrepancy, we introduce an interpretable, information-theoretic framework for auditing unlearning using Partial Information Decomposition (PID). By comparing model representations before and after unlearning, we decompose the mutual information with the forgotten data into distinct components, formalizing the notions of unlearned and residual knowledge. Our analysis reveals that redundant information, shared across both models, constitutes residual knowledge that persists post-unlearning and correlates with susceptibility to known adversarial reconstruction attacks. Leveraging these insights, we propose a representation-based risk score that can guide abstention on sensitive inputs at inference time, providing a practical mechanism to mitigate privacy leakage. Our work introduces a principled, representation-level audit for unlearning, offering theoretical insight and actionable tools for safer deployment of language models.

0 Citations
0 Influential
8 Altmetric
40.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!