SCAN: 지속적인 지식 편집을 위한 해석 가능한 희소 회로 앵커 뉴런
SCAN: Sparse Circuit Anchor Interpretable Neuron for Lifelong Knowledge Editing
대규모 언어 모델(LLM)은 종종 순차적인 지식 편집 과정에서 파국적인 망각과 성능 저하를 겪습니다. 이러한 취약점은 모델을 블랙박스로 취급하고, 보존된 지식을 필연적으로 방해하는 조잡한 수준의 파라미터 조작에 의존하는 일반적인 밀집 편집 패러다임에서 비롯됩니다. 이를 해결하기 위해, 우리는 희소 트랜스코더를 통해 지식 회로를 구축하여 편집을 메커니즘을 고려한 조작으로 변환하는 희소 편집 프레임워크인 SCAN(Sparse Circuit Anchor Neuron 기반)을 제안합니다. Gemma2, Qwen3, 그리고 Llama3.1 모델을 대상으로 CounterFact, ZsRE 및 WikiFactDiff 데이터셋에 대한 실험 결과, SCAN은 MMLU 및 GSM8K과 같은 벤치마크에서 3,000번의 순차적인 편집 후에도 모델의 무결성을 유지하며 우수한 성능을 달성했습니다. 반면, 기존의 다른 방법들은 편집이 누적됨에 따라 점진적으로 성능이 저하되어 결국 모델이 붕괴되는 현상이 나타났습니다.
Large Language Models (LLMs) often suffer from catastrophic forgetting and collapse during sequential knowledge editing. This vulnerability stems from the prevailing dense editing paradigm, which treats models as black boxes and relies on coarse-grained parameter interventions that inevitably disrupt preserved knowledge. To address this, we propose SCAN (a sparse editing framework based on Sparse Circuit Anchored Neuron) which transforms editing into a mechanism-aware manipulation by constructing a knowledge circuit via Sparse Transcoders. Experiments on Gemma2, Qwen3, and Llama3.1 across CounterFact, ZsRE and WikiFactDiff demonstrate that SCAN achieves a superior performance, maintaining model integrity on benchmarks like MMLU and GSM8K even after 3,000 sequential edits, whereas other existing methods deteriorate progressively as editing accumulates, eventually resulting in model collapse.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.