2601.21900v2 Jan 29, 2026 cs.CV

TraceRouter: 경로 수준 개입을 통한 대규모 기초 모델의 강력한 안전성 확보

TraceRouter: Robust Safety for Large Foundation Models via Path-Level Intervention

Chuancheng Shi
Chuancheng Shi
Citations: 7
h-index: 1
Wenhua Wu
Wenhua Wu
Citations: 6
h-index: 1
Fei Shen
Fei Shen
Citations: 6
h-index: 1
Shangze Li
Shangze Li
Citations: 41
h-index: 3
Wenjun Lu
Wenjun Lu
Citations: 222
h-index: 6
Cong Wang
Cong Wang
Citations: 5
h-index: 1
Zifeng Cheng
Zifeng Cheng
Citations: 308
h-index: 9
T. Chua
T. Chua
Citations: 12
h-index: 3

뛰어난 성능을 보이는 대규모 기초 모델(LFMs)은 여전히 적대적 조작에 취약합니다. 현재의 방어 기법은 주로 '근접성 가설'에 의존하여, 개별 뉴런이나 특징을 억제합니다. 그러나 악의적인 의미는 분산된, 계층 간 연결 구조를 가지므로, 이러한 지역적인 개입은 효과가 미흡하고 유용성을 저해할 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 원인 관계 전파 경로를 추적하고 차단하는 경로 수준 프레임워크인 extbf{TraceRouter}를 제안합니다. TraceRouter는 세 단계로 작동합니다: (1) 어텐션 발산 분석을 통해 민감한 초기 계층을 식별합니다; (2) 희소 오토인코더(SAE)와 차등 활성화 분석을 활용하여 악의적인 특징을 분리하고 격리합니다; (3) 제로-아웃 개입으로부터 파생된 특징 영향 점수(FIS)를 사용하여 이러한 특징을 하위 원인 관계 경로에 매핑합니다. TraceRouter는 이러한 원인 관계를 선택적으로 억제하여 악의적인 정보 흐름을 물리적으로 차단하면서, 동시에 다른 연산 경로를 온전하게 유지합니다. 광범위한 실험 결과, TraceRouter는 최첨단 기준 모델보다 훨씬 우수한 성능을 보이며, 적대적 견고성과 일반적인 유용성 간의 균형을 효과적으로 유지합니다. 저희 코드는 공개될 예정입니다. 경고: 본 논문에는 안전하지 않은 모델 응답이 포함되어 있습니다.

Original Abstract

Despite their capabilities, large foundation models (LFMs) remain susceptible to adversarial manipulation. Current defenses predominantly rely on the "locality hypothesis", suppressing isolated neurons or features. However, harmful semantics act as distributed, cross-layer circuits, rendering such localized interventions brittle and detrimental to utility. To bridge this gap, we propose \textbf{TraceRouter}, a path-level framework that traces and disconnects the causal propagation circuits of illicit semantics. TraceRouter operates in three stages: (1) it pinpoints a sensitive onset layer by analyzing attention divergence; (2) it leverages sparse autoencoders (SAEs) and differential activation analysis to disentangle and isolate malicious features; and (3) it maps these features to downstream causal pathways via feature influence scores (FIS) derived from zero-out interventions. By selectively suppressing these causal chains, TraceRouter physically severs the flow of harmful information while leaving orthogonal computation routes intact. Extensive experiments demonstrate that TraceRouter significantly outperforms state-of-the-art baselines, achieving a superior trade-off between adversarial robustness and general utility. Our code will be publicly released. WARNING: This paper contains unsafe model responses.

1 Citations
0 Influential
4.5 Altmetric
23.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!