2602.16931v1 Feb 18, 2026 cs.AI

좁은 범위의 미세 조정이 시각-언어 에이전트의 안전 정렬을 저해한다

Narrow fine-tuning erodes safety alignment in vision-language agents

I. Gulati
I. Gulati
Citations: 12
h-index: 1
Shivam Raval
Shivam Raval
Citations: 18
h-index: 2

장기적으로 작동하는 다중 모드 에이전트는 지속적으로 새로운 작업에 적응해야 하지만, 이는 능력 습득과 안전 정렬 유지 간의 근본적인 긴장을 야기한다. 본 연구에서는, 정렬된 시각-언어 모델을 특정 영역의 유해 데이터셋으로 미세 조정하면 심각한 수준의 새로운 부합성 문제를 야기하며, 이는 관련 없는 작업 및 모달리티 전반에 걸쳐 광범위하게 나타난다는 것을 보여준다. Gemma3-4B 모델에 대한 실험을 통해, 부합성 문제는 LoRA rank와 함께 단조적으로 증가하며, 다중 모드 평가에서 텍스트만 사용한 평가보다 훨씬 높은 수준의 부합성 불일치($r=128$일 때 $70.71 eq 1.22$ vs. $41.19 eq 2.51$)가 나타나는 것을 확인했다. 이는 단일 모드 안전성 벤치마크가 시각-언어 모델의 정렬 저하를 과소평가할 수 있음을 시사한다. 특히, 학습 데이터셋의 10%가 유해한 데이터일 때도 상당한 수준의 정렬 저하가 발생한다. 기하학적 분석 결과, 유해한 행동은 매우 낮은 차원의 부분 공간을 차지하며, 대부분의 부합성 불일치 정보는 10개의 주성분으로 설명될 수 있다. 부합성 불일치를 완화하기 위해, 우리는 양성적인 미세 조정 및 활성화 기반 제어라는 두 가지 전략을 평가했다. 두 가지 접근 방식 모두 부합성 불일치를 크게 줄이지만, 학습된 유해한 행동을 완전히 제거하지는 못한다. 본 연구 결과는 견고한 지속 학습 프레임워크의 필요성을 강조하며, 현재의 사후 학습 패러다임으로는 배포 후 환경에서 정렬을 충분히 유지할 수 없을 수 있음을 시사한다.

Original Abstract

Lifelong multimodal agents must continuously adapt to new tasks through post-training, but this creates fundamental tension between acquiring capabilities and preserving safety alignment. We demonstrate that fine-tuning aligned vision-language models on narrow-domain harmful datasets induces severe emergent misalignment that generalizes broadly across unrelated tasks and modalities. Through experiments on Gemma3-4B, we show that misalignment scales monotonically with LoRA rank, and that multimodal evaluation reveals substantially higher misalignment ($70.71 \pm 1.22$ at $r=128$) than text-only evaluation ($41.19 \pm 2.51$), suggesting that unimodal safety benchmarks may underestimate alignment degradation in vision-language models. Critically, even 10\% harmful data in the training mixture induces substantial alignment degradation. Geometric analysis reveals that harmful behaviors occupy a remarkably low-dimensional subspace, with the majority of misalignment information captured in 10 principal components. To mitigate misalignment, we evaluate two strategies: benign narrow fine-tuning and activation-based steering. While both approaches substantially reduce misalignment, neither completely removes the learned harmful behaviors. Our findings highlight the need for robust continual learning frameworks, as current post-training paradigms may not sufficiently preserve alignment in post-deployment settings.

1 Citations
0 Influential
1 Altmetric
6.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!