TraceRouter: 경로 수준 개입을 통한 대규모 기초 모델의 강력한 안전성 확보
TraceRouter: Robust Safety for Large Foundation Models via Path-Level Intervention
뛰어난 성능을 보이는 대규모 기초 모델(LFMs)은 여전히 적대적 조작에 취약합니다. 현재의 방어 기법은 주로 '근접성 가설'에 의존하여, 개별 뉴런이나 특징을 억제합니다. 그러나 악의적인 의미는 분산된, 계층 간 연결 구조를 가지므로, 이러한 지역적인 개입은 효과가 미흡하고 유용성을 저해할 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 원인 관계 전파 경로를 추적하고 차단하는 경로 수준 프레임워크인 extbf{TraceRouter}를 제안합니다. TraceRouter는 세 단계로 작동합니다: (1) 어텐션 발산 분석을 통해 민감한 초기 계층을 식별합니다; (2) 희소 오토인코더(SAE)와 차등 활성화 분석을 활용하여 악의적인 특징을 분리하고 격리합니다; (3) 제로-아웃 개입으로부터 파생된 특징 영향 점수(FIS)를 사용하여 이러한 특징을 하위 원인 관계 경로에 매핑합니다. TraceRouter는 이러한 원인 관계를 선택적으로 억제하여 악의적인 정보 흐름을 물리적으로 차단하면서, 동시에 다른 연산 경로를 온전하게 유지합니다. 광범위한 실험 결과, TraceRouter는 최첨단 기준 모델보다 훨씬 우수한 성능을 보이며, 적대적 견고성과 일반적인 유용성 간의 균형을 효과적으로 유지합니다. 저희 코드는 공개될 예정입니다. 경고: 본 논문에는 안전하지 않은 모델 응답이 포함되어 있습니다.
Despite their capabilities, large foundation models (LFMs) remain susceptible to adversarial manipulation. Current defenses predominantly rely on the "locality hypothesis", suppressing isolated neurons or features. However, harmful semantics act as distributed, cross-layer circuits, rendering such localized interventions brittle and detrimental to utility. To bridge this gap, we propose \textbf{TraceRouter}, a path-level framework that traces and disconnects the causal propagation circuits of illicit semantics. TraceRouter operates in three stages: (1) it pinpoints a sensitive onset layer by analyzing attention divergence; (2) it leverages sparse autoencoders (SAEs) and differential activation analysis to disentangle and isolate malicious features; and (3) it maps these features to downstream causal pathways via feature influence scores (FIS) derived from zero-out interventions. By selectively suppressing these causal chains, TraceRouter physically severs the flow of harmful information while leaving orthogonal computation routes intact. Extensive experiments demonstrate that TraceRouter significantly outperforms state-of-the-art baselines, achieving a superior trade-off between adversarial robustness and general utility. Our code will be publicly released. WARNING: This paper contains unsafe model responses.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.