잊혀짐의 어려움 이해를 향하여: 메커니즘적 관점과 회로 기반의 어려움 측정 지표
Toward Understanding Unlearning Difficulty: A Mechanistic Perspective and Circuit-Guided Difficulty Metric
머신 언러닝은 신뢰할 수 있고 규정을 준수하는 언어 모델을 구축하는 데 필수적인 기술로 자리 잡고 있습니다. 그러나 언러닝의 성공 여부는 개별 데이터 샘플에 따라 크게 달라집니다. 어떤 샘플은 안정적으로 삭제되지만, 다른 샘플은 동일한 절차에도 불구하고 여전히 남아 있습니다. 우리는 이러한 차이가 데이터 측면의 현상일 뿐만 아니라, 저장된 정보를 인코딩하고 보호하는 모델 내부의 메커니즘을 반영하는 것이라고 주장합니다. 본 연구에서는 모델 회로, 즉 예측 형성을 조절하는 구조화된 상호 작용 경로를 기반으로 이러한 문제를 메커니즘적 관점에서 연구합니다. 우리는 회로 기반의 언러닝 어려움(Circuit-guided Unlearning Difficulty, CUD)이라는 { }언러닝 전(pre-unlearning) 측정 지표를 제안합니다. CUD는 회로 수준의 신호를 사용하여 각 샘플에 연속적인 어려움 점수를 할당합니다. 광범위한 실험 결과, CUD는 본질적으로 쉬운 샘플과 어려운 샘플을 안정적으로 구분하며, 다양한 언러닝 방법에 대해 안정적인 성능을 유지하는 것으로 나타났습니다. 우리는 중요한 회로 수준의 패턴을 식별하여 어려움의 메커니즘적 특징을 밝혀냈습니다. 언러닝이 쉬운 샘플은 원래 모델의 초기에서 중간 부분에 집중된 짧고 얕은 상호 작용과 관련이 있는 반면, 어려운 샘플은 후반 단계 연산에 더 가까운 길고 깊은 경로에 의존합니다. 기존의 질적 연구와 비교하여, CUD는 언러닝 어려움을 원리적이고 세밀하며 해석 가능하게 분석하는 첫 번째 단계이며, 모델 메커니즘에 기반한 언러닝 방법 개발을 촉진합니다.
Machine unlearning is becoming essential for building trustworthy and compliant language models. Yet unlearning success varies considerably across individual samples: some are reliably erased, while others persist despite the same procedure. We argue that this disparity is not only a data-side phenomenon, but also reflects model-internal mechanisms that encode and protect memorized information. We study this problem from a mechanistic perspective based on model circuits--structured interaction pathways that govern how predictions are formed. We propose Circuit-guided Unlearning Difficulty (CUD), a {\em pre-unlearning} metric that assigns each sample a continuous difficulty score using circuit-level signals. Extensive experiments demonstrate that CUD reliably separates intrinsically easy and hard samples, and remains stable across unlearning methods. We identify key circuit-level patterns that reveal a mechanistic signature of difficulty: easy-to-unlearn samples are associated with shorter, shallower interactions concentrated in earlier-to-intermediate parts of the original model, whereas hard samples rely on longer and deeper pathways closer to late-stage computation. Compared to existing qualitative studies, CUD takes a first step toward a principled, fine-grained, and interpretable analysis of unlearning difficulty; and motivates the development of unlearning methods grounded in model mechanisms.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.