2605.04572v1 May 06, 2026 cs.AI

파라미터 동역학에서 위험 점수까지: LLM 미세 조정 시 샘플 레벨 안전 성능 저하의 정량화

From Parameter Dynamics to Risk Scoring : Quantifying Sample-Level Safety Degradation in LLM Fine-tuning

Zihan Wang
Zihan Wang
Citations: 319
h-index: 4
Shi Feng
Shi Feng
Citations: 105
h-index: 5
Xiaocui Yang
Xiaocui Yang
Citations: 814
h-index: 13
Daling Wang
Daling Wang
Citations: 2,694
h-index: 25
Yifei Zhang
Yifei Zhang
Citations: 1,889
h-index: 21
Yongkang Liu
Yongkang Liu
Citations: 41
h-index: 3
Xiao Wang
Xiao Wang
Citations: 1
h-index: 1

대규모 언어 모델(LLM)의 안전 정렬은 매우 취약합니다. 소수의 안전한 샘플로 미세 조정하는 것만으로도 수백만 개의 선호도 예시를 통해 학습된 안전 행동이 사라질 수 있습니다. 기존 연구에서는 미세 조정 전후의 파라미터와 은닉 상태를 비교하여 이 현상을 설명하려고 시도하지만, 미세 조정 과정에서의 동적인 변화는 간과합니다. 본 논문에서는 파라미터 동역학을 분석하여 안전 성능 저하의 중요한 메커니즘을 밝혀냅니다. 즉, 안전한 미세 조정은 파라미터가 점진적으로 위험에 부합하는 방향으로 누적적으로 편향되도록 유도하여 모델의 안전성을 약화시킵니다. 이러한 발견은 미세 조정 과정에서 이러한 편향에 더 큰 기여를 하는 샘플이 더 높은 위험을 초래한다는 것을 시사합니다. 이러한 통찰력을 바탕으로, 우리는 각 학습 샘플이 안전 성능 저하에 미치는 영향을 정량화하는 '샘플 레벨 안전 성능 저하 정량화(SQSD)'라는 방법을 제안합니다. 구체적으로, SQSD는 각 샘플이 유도하는 파라미터 업데이트의 투영 차이를 위험과 안전 방향 간에 측정하여 연속적인 위험 점수를 계산합니다. 다양한 모델과 데이터 세트를 대상으로 수행한 광범위한 실험 결과, SQSD는 샘플 레벨의 미세 조정 위험을 효과적으로 정량화하며, 모델 아키텍처, 파라미터 규모 및 파라미터 효율적인 방법 전반에 걸쳐 높은 일반화 성능을 보입니다.

Original Abstract

Safety alignment of Large Language Models (LLMs) is extremely fragile, as fine-tuning on a small number of benign samples can erase safety behaviors learned from millions of preference examples. Existing studies attempt to explain this phenomenon by comparing parameters and hidden states before and after fine-tuning, but overlook their dynamic evolution during fine-tuning. In this paper, we uncover a critical mechanism underlying safety degradation by analyzing parameter dynamics, where benign fine-tuning causes parameters to cumulatively drift toward danger-aligned directions, progressively undermining the model's safety. This finding suggests that samples contributing more to this drift has greater fine-tuning risks. Based on this insight, we propose a method of Sample-Level Quantification of Safety Degradation (SQSD), which quantifies the influence of each training sample on safety degradation. Specifically, SQSD computes continuous risk scores to samples by measuring their induced parameter updates' projection difference between danger and safety directions. Extensive experiments across multiple models and datasets demonstrate that SQSD effectively quantifies sample-level fine-tuning risks and exhibits strong transferability across model architectures, parameter scales, and parameter-efficient methods.

0 Citations
0 Influential
12.5 Altmetric
62.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!