계층적 직교 잔차 확산법: 대규모 언어 모델의 정밀한 대규모 편집을 위한 방법
Hierarchical Orthogonal Residual Spread for Precise Massive Editing in Large Language Models
대규모 언어 모델(LLM)은 다양한 분야에서 뛰어난 성능을 보이지만, 심각한 안전 문제를 안고 있습니다. 모델 편집은 이러한 문제를 완화하는 효과적인 접근 방식으로 부상했습니다. 기존의 모델 편집 방법은 종종 새로운 지식과 기존 지식을 결합하는 정보 행렬을 최적화하는 데 중점을 둡니다. 이러한 접근 방식은 효과적이지만, 계산 비용이 많이 들고 충돌을 일으킬 수 있습니다. 이에 반해, 우리는 정보 행렬의 계층적 직교 잔차 확산법에 주목합니다. 이 방법은 노이즈가 많은 기울기를 줄여 다른 관점에서 더욱 안정적인 편집을 가능하게 합니다. 우리는 HORSE라는 이름의 방법의 효과를 여러 인기 있는 방법과의 명확한 이론적 비교 및 다양한 LLM에 대한 두 개의 데이터 세트를 사용한 광범위한 실험을 통해 입증했습니다. 결과는 HORSE가 다양한 시나리오에서 정밀한 대규모 편집을 유지한다는 것을 보여줍니다. 코드 및 관련 정보는 다음 주소에서 확인할 수 있습니다: https://github.com/XiaojieGu/HORSE
Large language models (LLMs) exhibit exceptional performance across various domains, yet they face critical safety concerns. Model editing has emerged as an effective approach to mitigate these issues. Existing model editing methods often focus on optimizing an information matrix that blends new and old knowledge. While effective, these approaches can be computationally expensive and may cause conflicts. In contrast, we shift our attention to Hierarchical Orthogonal Residual SprEad of the information matrix, which reduces noisy gradients and enables more stable edits from a different perspective. We demonstrate the effectiveness of our method HORSE through a clear theoretical comparison with several popular methods and extensive experiments conducted on two datasets across multiple LLMs. The results show that HORSE maintains precise massive editing across diverse scenarios. The code is available at https://github.com/XiaojieGu/HORSE
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.