순차적 지식 편집 과정에서의 스펙트럼 특성 분석 및 성능 저하 방지
Spectral Characterization and Mitigation of Sequential Knowledge Editing Collapse
대규모 언어 모델에서 순차적인 지식 편집은 모델의 전반적인 성능 저하를 야기하는 경우가 많으며, 특히 파라미터 수정 방법을 사용하는 경우 더욱 심각합니다. 기존 연구들은 파라미터 업데이트에 대한 휴리스틱 제약을 통해 이러한 문제를 완화하려고 시도했지만, 성능 저하의 근본적인 원리는 아직 충분히 이해되지 못하고 있습니다. 본 연구에서는 순차적 지식 편집 과정에 대한 스펙트럼 분석을 수행하고, 모델의 전반적인 성능이 사전 학습된 가중치 행렬의 주요 특이 방향과 밀접하게 관련되어 있음을 보여줍니다. 이러한 특이 방향은 작은 변화에도 민감하며, 반복적인 편집 과정에서 점진적으로 파괴되어 편집 효율성과 전반적인 성능 저하를 초래합니다. 이러한 통찰력을 바탕으로, 우리는 주요 특이 부분 공간을 명시적으로 보존하여 순차적 편집을 안정화하는 플러그 앤 플레이 프레임워크인 REVIVE를 제안합니다. REVIVE는 파라미터 업데이트를 원래 가중치의 스펙트럼 기반으로 표현하고, 보호된 영역에 간섭을 일으키는 구성 요소를 필터링합니다. 다양한 모델과 벤치마크에 대한 광범위한 실험 결과, REVIVE는 편집 효율성을 지속적으로 향상시키면서, 최대 20,000회에 이르는 장기적인 순차적 편집 과정에서도 모델의 전반적인 성능을 크게 유지하는 것을 확인했습니다.
Sequential knowledge editing in large language models often causes catastrophic collapse of the model's general abilities, especially for parameter-modifying methods. Existing approaches mitigate this issue through heuristic constraints on parameter updates, yet the mechanisms underlying such degradation remain insufficiently understood. In this work, we present a spectral analysis of sequential knowledge editing and show that a model's general abilities are closely associated with dominant singular directions of pretrained weight matrices. These directions are highly sensitive to perturbations and are progressively disrupted by repeated edits, closely tracking the collapse in both editing efficacy and general performance. Building on this insight, we propose REVIVE, a plug-and-play framework that stabilizes sequential editing by explicitly preserving the dominant singular subspace. REVIVE represents parameter updates in the spectral basis of the original weights and filters components that would interfere with the protected region. Extensive experiments across multiple models and benchmarks show that REVIVE consistently improves editing efficacy while substantially preserving general abilities under long-horizon sequential editing, including extreme settings with up to 20,000 edits.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.