TamperBench: 미세 조정 및 변조 환경에서 LLM의 안전성을 체계적으로 테스트하는 방법
TamperBench: Systematically Stress-Testing LLM Safety Under Fine-Tuning and Tampering
점차 발전된 오픈 웨이트 대규모 언어 모델(LLM)이 배포됨에 따라, 의도적이든 아니든 안전하지 않은 수정으로부터의 내성을 강화하는 것은 위험을 최소화하는 데 매우 중요합니다. 그러나, 변조 내성을 평가하는 표준적인 방법은 존재하지 않습니다. 다양한 데이터 세트, 측정 지표, 변조 구성은 서로 다른 모델 및 방어 메커니즘의 안전성, 유용성, 견고성을 비교하기 어렵게 만듭니다. 이에, 우리는 LLM의 변조 내성을 체계적으로 평가하는 최초의 통합 프레임워크인 TamperBench를 소개합니다. TamperBench는 (i) 최첨단 가중치 공간 미세 조정 공격 및 잠재 공간 표현 공격을 포함하는 저장소를 구축하고, (ii) 공격-모델 쌍별 체계적인 하이퍼파라미터 탐색을 통해 현실적인 적대적 평가를 가능하게 하며, (iii) 안전성 및 유용성 평가를 모두 제공합니다. TamperBench는 추가적인 코드를 최소한으로 사용하여 모든 미세 조정 구성, 정렬 단계 방어 방법 및 측정 지표 세트를 지정할 수 있으며, 엔드 투 엔드 재현성을 보장합니다. 우리는 TamperBench를 사용하여 21개의 오픈 웨이트 LLM, 방어 기능을 강화한 변형 모델을 포함하여, 9가지 변조 위협에 대해 표준화된 안전성 및 기능 지표를 사용하여 모델-공격 쌍별 하이퍼파라미터 탐색을 통해 평가했습니다. 이를 통해 사후 훈련이 변조 내성에 미치는 영향, 일반적으로 jailbreak-tuning이 가장 심각한 공격 유형이며, Triplet이 주요 정렬 단계 방어 메커니즘으로 부상한다는 새로운 통찰력을 얻었습니다. 코드는 다음 주소에서 확인할 수 있습니다: https://github.com/criticalml-uw/TamperBench
As increasingly capable open-weight large language models (LLMs) are deployed, improving their tamper resistance against unsafe modifications, whether accidental or intentional, becomes critical to minimize risks. However, there is no standard approach to evaluate tamper resistance. Varied data sets, metrics, and tampering configurations make it difficult to compare safety, utility, and robustness across different models and defenses. To this end, we introduce TamperBench, the first unified framework to systematically evaluate the tamper resistance of LLMs. TamperBench (i) curates a repository of state-of-the-art weight-space fine-tuning attacks and latent-space representation attacks; (ii) enables realistic adversarial evaluation through systematic hyperparameter sweeps per attack-model pair; and (iii) provides both safety and utility evaluations. TamperBench requires minimal additional code to specify any fine-tuning configuration, alignment-stage defense method, and metric suite while ensuring end-to-end reproducibility. We use TamperBench to evaluate 21 open-weight LLMs, including defense-augmented variants, across nine tampering threats using standardized safety and capability metrics with hyperparameter sweeps per model-attack pair. This yields novel insights, including effects of post-training on tamper resistance, that jailbreak-tuning is typically the most severe attack, and that Triplet emerges as a leading alignment-stage defense. Code is available at: https://github.com/criticalml-uw/TamperBench
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.