2602.00038v1 Jan 19, 2026 cs.CY

LSSF: 저랭크 안전 서브스페이스 융합을 통한 대규모 언어 모델의 안전성 정렬

LSSF: Safety Alignment for Large Language Models through Low-Rank Safety Subspace Fusion

J. Chu
J. Chu
Citations: 9
h-index: 2
Guanghao Zhou
Guanghao Zhou
Citations: 46
h-index: 3
Panjia Qiu
Panjia Qiu
Citations: 41
h-index: 2
Cen Chen
Cen Chen
Citations: 41
h-index: 2
Hongyu Li
Hongyu Li
Citations: 753
h-index: 10
Xin Zhang
Xin Zhang
Citations: 24
h-index: 3
Jun Zhou
Jun Zhou
Citations: 24
h-index: 3

대규모 언어 모델(LLM)의 안전 메커니즘은 상당한 취약성을 보이며, 유해 콘텐츠가 없는 데이터셋으로 미세 조정하더라도 안전 기능을 저해할 수 있습니다. 또한, 기존의 안전 정렬 방법은 주로 미세 조정 과정을 의존하며, 이는 시스템의 복잡성과 필요한 계산 자원을 증가시키는 결과를 초래합니다. 이러한 문제를 해결하기 위해, 우리는 저랭크 안전 서브스페이스 융합(LSSF)이라는 새로운 안전 재정렬 프레임워크를 소개합니다. 제안된 방법은 LLM에서 안전 정보의 저랭크 특성을 활용하여, 저랭크 투영 행렬을 구축하여 안전 벡터의 주요 구성 요소를 추출합니다. 주목할 점은 이 투영 행렬이 LLM의 저랭크 안전 서브스페이스를 나타내며, 우리가 관찰한 바에 따르면 이 서브스페이스는 미세 조정 과정에서 안정적으로 유지되며 모델의 일반적인 기능과 분리되어 있습니다. 이러한 주요 구성 요소는 선형 연산을 통해 미세 조정된 LLM과 결합하여 안전 정렬을 효과적으로 복원하는 데 사용됩니다. 또한, LLM의 서로 다른 계층에서 안전 정보의 인코딩 밀도가 다양하다는 점을 고려하여, 안전 특이값 엔트로피라는 새로운 지표를 제안합니다. 이 지표는 인코딩 밀도를 정량화하며, 각 안전 벡터에 대한 안전 관련 중요 랭크를 동적으로 계산할 수 있도록 합니다. 광범위한 실험 결과, 제안된 사후 정렬 방법은 미세 조정된 모델의 안전 정렬을 효과적으로 복원하며, 하위 작업에서의 성능에 미치는 영향은 최소화함을 보여줍니다.

Original Abstract

The safety mechanisms of large language models (LLMs) exhibit notable fragility, as even fine-tuning on datasets without harmful content may still undermine their safety capabilities. Meanwhile, existing safety alignment methods predominantly rely on the fine-tuning process, which inadvertently leads to the increased complexity and computational resources required. To address these issues, we introduce LSSF, a novel safety re-alignment framework with \underline{L}ow-Rank \underline{S}afety \underline{S}ubspace \underline{F}usion. Our proposed method exploits the low-rank characteristics of safety information in LLMs by constructing a low-rank projection matrix to extract the principal components of safety vectors. Notably, this projection matrix represents the low-rank safety subspace of the LLMs, which we have observed to remain stable during fine-tuning process and is isolated from the model's general capabilities. These principal components are used to effectively restore safety alignment when combined with fine-tuned LLMs through linear arithmetic. Additionally, to account for the varying encoding densities of safety information across different layers of LLMs, we propose a novel metric called safety singular value entropy. This metric quantifies the encoding density and allows for the dynamic computation of the safety-critical rank for each safety vector. Extensive experiments demonstrate that our proposed post-hoc alignment method can effectively restore the safety alignment of fine-tuned models with minimal impact on their performance in downstream tasks.

8 Citations
1 Influential
5 Altmetric
35.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!