VLMs에 도덕적 기반이 있는가? 비전-언어 모델의 취약한 도덕성에 대한 연구
Do VLMs Have a Moral Backbone? A Study on the Fragile Morality of Vision-Language Models
비전-언어 모델(VLMs)의 도덕적 정렬을 개선하기 위한 상당한 노력이 이루어졌음에도 불구하고, 실제 환경에서 이들의 윤리적 판단이 얼마나 안정적인지는 여전히 불분명합니다. 본 연구는 텍스트 및 시각적 변화에 의해 근본적인 도덕적 맥락이 변하지 않는 경우에도 도덕적 판단을 유지하는 능력, 즉 VLMs의 도덕적 강건성을 연구합니다. 우리는 다양한 모델에 독립적인 다중 모달 변화를 사용하여 VLMs를 체계적으로 분석한 결과, 이들의 도덕적 태도가 매우 취약하며, 단순한 조작에 의해 쉽게 바뀌는 것을 확인했습니다. 분석 결과, 변화 유형, 도덕적 영역 및 모델 규모에 걸쳐 체계적인 취약점이 존재하며, 특히 명령어 수행 능력이 강한 모델일수록 설득에 더 취약하다는 '아첨의 균형' 현상이 나타납니다. 또한, 경량화된 추론 시 개입을 통해 도덕적 안정성을 부분적으로 회복할 수 있음을 보여줍니다. 이러한 결과는 도덕적 정렬만으로는 충분하지 않으며, VLMs의 책임감 있는 배포를 위해서는 도덕적 강건성이 필수적인 기준임을 시사합니다.
Despite substantial efforts toward improving the moral alignment of Vision-Language Models (VLMs), it remains unclear whether their ethical judgments are stable in realistic settings. This work studies moral robustness in VLMs, defined as the ability to preserve moral judgments under textual and visual perturbations that do not alter the underlying moral context. We systematically probe VLMs with a diverse set of model-agnostic multimodal perturbations and find that their moral stances are highly fragile, frequently flipping under simple manipulations. Our analysis reveals systematic vulnerabilities across perturbation types, moral domains, and model scales, including a sycophancy trade-off where stronger instruction-following models are more susceptible to persuasion. We further show that lightweight inference-time interventions can partially restore moral stability. These results demonstrate that moral alignment alone is insufficient and that moral robustness is a necessary criterion for the responsible deployment of VLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.