2605.14750v1 May 14, 2026 cs.CR

EVA: 탈옥 공격에 대한 다재다능한 정렬을 위한 편집

EVA: Editing for Versatile Alignment against Jailbreaks

Yue Xu
Yue Xu
Citations: 77
h-index: 4
Wenjie Wang
Wenjie Wang
Citations: 3
h-index: 1
Yi Wang
Yi Wang
Citations: 80
h-index: 3
Hongye Qiu
Hongye Qiu
Citations: 4
h-index: 1
Sibei Yang
Sibei Yang
Citations: 130
h-index: 8
Zhan Qin
Zhan Qin
Citations: 49
h-index: 3
Minlie Huang
Minlie Huang
Citations: 78
h-index: 4

대규모 언어 모델(LLM)과 시각 언어 모델(VLM)은 놀라운 성능을 보여주지만, 여전히 탈옥 공격에 취약합니다. 탈옥 공격은 악의적인 사용자가 텍스트 또는 시각적 요소를 활용하여 안전 장치를 우회하는 공격입니다. 최근의 방어 방법은 일반적으로 안전 미세 조정 또는 외부 필터를 사용하여 모델이 유해한 콘텐츠를 생성할 가능성을 줄이는 데 의존합니다. 이러한 방법은 어느 정도 효과적이지만, 상당한 계산 오버헤드를 발생시키고 안전성과 유용성 간의 균형을 깨뜨려 모델의 정상적인 작업 성능을 저하시키는 경향이 있습니다. 이러한 문제점을 해결하기 위해, 우리는 EVA(Editing for Versatile Alignment against Jailbreaks)라는 새로운 프레임워크를 제안합니다. EVA는 안전 정렬을 위한 직접적인 모델 편집을 처음으로 적용하는 방식입니다. EVA는 안전 정렬을 정확한 지식 수정 작업으로 재정의합니다. EVA는 방대한 파라미터를 재훈련하는 대신, 모델이 유해한 지시에 취약하게 만드는 특정 뉴런을 식별하고 수술적으로 편집하며, 모델의 대부분을 변경하지 않습니다. EVA는 이러한 부분을 국소적으로 수정함으로써, 모델의 일반적인 추론 능력을 손상시키지 않고 유해한 행동을 효과적으로 중화합니다. 광범위한 실험 결과, EVA는 LLM과 VLM 모두에서 탈옥 공격을 완화하는 데 있어 기존 방법보다 우수한 성능을 보여주며, 배포 후 안전 정렬을 위한 정확하고 효율적인 솔루션을 제공합니다.

Original Abstract

Large Language Models (LLMs) and Vision Language Models (VLMs) have demonstrated impressive capabilities but remain vulnerable to jailbreaking attacks, where adversaries exploit textual or visual triggers to bypass safety guardrails. Recent defenses typically rely on safety fine-tuning or external filters to reduce the model's likelihood of producing harmful content. While effective to some extent, these methods often incur significant computational overheads and suffer from the safety utility trade-off, degrading the model's performance on benign tasks. To address these challenges, we propose EVA (Editing for Versatile Alignment against Jailbreaks), a novel framework that pioneers the application of direct model editing for safety alignment. EVA reframes safety alignment as a precise knowledge correction task. Instead of retraining massive parameters, EVA identifies and surgically edits specific neurons responsible for the model's susceptibility to harmful instructions, while leaving the vast majority of the model unchanged. By localizing the updates, EVA effectively neutralizes harmful behaviors without compromising the model's general reasoning capabilities. Extensive experiments demonstrate that EVA outperforms baselines in mitigating jailbreaks across both LLMs and VLMs, offering a precise and efficient solution for post-deployment safety alignment.

0 Citations
0 Influential
4 Altmetric
20.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!