2601.06226v1 Jan 09, 2026 cs.LG

악의성을 제거하는 방법: LLM 해독을 위한 글로벌 서브스페이스 접근 방식

Projecting Out the Malice: A Global Subspace Approach to LLM Detoxification

Xueqi Cheng
Xueqi Cheng
Citations: 1,787
h-index: 21
Zenghao Duan
Zenghao Duan
Citations: 83
h-index: 7
Liang Pang
Liang Pang
Citations: 700
h-index: 15
Jingcheng Deng
Jingcheng Deng
Citations: 158
h-index: 9
Zhiyi Yin
Zhiyi Yin
Citations: 54
h-index: 5
Huawei Shen
Huawei Shen
Citations: 355
h-index: 11
Zhichao Shi
Zhichao Shi
Citations: 5
h-index: 2
Shaoling Jing
Shaoling Jing
Citations: 23
h-index: 3
Zihe Huang
Zihe Huang
Citations: 4
h-index: 1
Jiayi Wu
Jiayi Wu
Citations: 7
h-index: 2
Yu Yan
Yu Yan
Citations: 13
h-index: 2

대규모 언어 모델(LLM)은 뛰어난 성능을 보이지만, 유해한 콘텐츠를 생성할 위험이 있어 안전하게 배포하기 어렵습니다. 기존 방법(예: 정렬)은 출력 선호도를 조정하지만, 모델 파라미터 내의 근본적인 유해 영역을 제거하지 못하여 모델이 적대적 공격에 취약하게 만듭니다. 이전 연구에서는 유해 영역을 '유해 벡터' 또는 '레이어별 서브스페이스'로 설명했지만, 본 연구에서는 이러한 설명에 중요한 한계가 있음을 밝히고자 합니다. 첫째, 제거된 유해 벡터는 비유해 벡터의 선형 결합을 통해 재구성될 수 있으므로, 전체 유해 서브스페이스를 대상으로 해야 합니다. 둘째, 제한된 샘플에 대한 대비 학습은 레이어별 서브스페이스에 노이즈를 주입하여 안정적인 추출을 방해합니다. 이러한 점들은 견고한 유해 서브스페이스를 식별하고 제거하는 데 어려움이 있음을 보여줍니다. 따라서, 본 연구에서는 FFN 파라미터에서 글로벌 유해 서브스페이스를 식별하고 제거하여 유해성을 완화하는 경량화된 방법인 GLOSS(GLobal tOxic Subspace Suppression)를 제안합니다. LLM(예: Qwen3)에 대한 실험 결과, GLOSS는 기존 최고 성능을 능가하는 해독 효과를 보이며, 대규모 재학습 없이 일반적인 기능을 유지합니다. 경고: 본 논문에는 유해한 내용이 포함되어 있습니다.

Original Abstract

Large language models (LLMs) exhibit exceptional performance but pose inherent risks of generating toxic content, restricting their safe deployment. While traditional methods (e.g., alignment) adjust output preferences, they fail to eliminate underlying toxic regions in parameters, leaving models vulnerable to adversarial attacks. Prior mechanistic studies characterize toxic regions as "toxic vectors" or "layer-wise subspaces", yet our analysis identifies critical limitations: i) Removed toxic vectors can be reconstructed via linear combinations of non-toxic vectors, demanding targeting of entire toxic subspace; ii) Contrastive objective over limited samples inject noise into layer-wise subspaces, hindering stable extraction. These highlight the challenge of identifying robust toxic subspace and removing them. Therefore, we propose GLOSS (GLobal tOxic Subspace Suppression), a lightweight method that mitigates toxicity by identifying and eliminating this global subspace from FFN parameters. Experiments on LLMs (e.g., Qwen3) show GLOSS achieves SOTA detoxification while preserving general capabilities without requiring large-scale retraining. WARNING: This paper contains context which is toxic in nature.

2 Citations
0 Influential
10.5 Altmetric
54.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!