좁은 범위의 미세 조정이 시각-언어 에이전트의 안전 정렬을 저해한다
Narrow fine-tuning erodes safety alignment in vision-language agents
장기적으로 작동하는 다중 모드 에이전트는 지속적으로 새로운 작업에 적응해야 하지만, 이는 능력 습득과 안전 정렬 유지 간의 근본적인 긴장을 야기한다. 본 연구에서는, 정렬된 시각-언어 모델을 특정 영역의 유해 데이터셋으로 미세 조정하면 심각한 수준의 새로운 부합성 문제를 야기하며, 이는 관련 없는 작업 및 모달리티 전반에 걸쳐 광범위하게 나타난다는 것을 보여준다. Gemma3-4B 모델에 대한 실험을 통해, 부합성 문제는 LoRA rank와 함께 단조적으로 증가하며, 다중 모드 평가에서 텍스트만 사용한 평가보다 훨씬 높은 수준의 부합성 불일치($r=128$일 때 $70.71 eq 1.22$ vs. $41.19 eq 2.51$)가 나타나는 것을 확인했다. 이는 단일 모드 안전성 벤치마크가 시각-언어 모델의 정렬 저하를 과소평가할 수 있음을 시사한다. 특히, 학습 데이터셋의 10%가 유해한 데이터일 때도 상당한 수준의 정렬 저하가 발생한다. 기하학적 분석 결과, 유해한 행동은 매우 낮은 차원의 부분 공간을 차지하며, 대부분의 부합성 불일치 정보는 10개의 주성분으로 설명될 수 있다. 부합성 불일치를 완화하기 위해, 우리는 양성적인 미세 조정 및 활성화 기반 제어라는 두 가지 전략을 평가했다. 두 가지 접근 방식 모두 부합성 불일치를 크게 줄이지만, 학습된 유해한 행동을 완전히 제거하지는 못한다. 본 연구 결과는 견고한 지속 학습 프레임워크의 필요성을 강조하며, 현재의 사후 학습 패러다임으로는 배포 후 환경에서 정렬을 충분히 유지할 수 없을 수 있음을 시사한다.
Lifelong multimodal agents must continuously adapt to new tasks through post-training, but this creates fundamental tension between acquiring capabilities and preserving safety alignment. We demonstrate that fine-tuning aligned vision-language models on narrow-domain harmful datasets induces severe emergent misalignment that generalizes broadly across unrelated tasks and modalities. Through experiments on Gemma3-4B, we show that misalignment scales monotonically with LoRA rank, and that multimodal evaluation reveals substantially higher misalignment ($70.71 \pm 1.22$ at $r=128$) than text-only evaluation ($41.19 \pm 2.51$), suggesting that unimodal safety benchmarks may underestimate alignment degradation in vision-language models. Critically, even 10\% harmful data in the training mixture induces substantial alignment degradation. Geometric analysis reveals that harmful behaviors occupy a remarkably low-dimensional subspace, with the majority of misalignment information captured in 10 principal components. To mitigate misalignment, we evaluate two strategies: benign narrow fine-tuning and activation-based steering. While both approaches substantially reduce misalignment, neither completely removes the learned harmful behaviors. Our findings highlight the need for robust continual learning frameworks, as current post-training paradigms may not sufficiently preserve alignment in post-deployment settings.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.