시각적 주의 분산이 시각-언어 모델의 도덕적 추론을 저해한다
Visual Distraction Undermines Moral Reasoning in Vision-Language Models
도덕적 추론은 안전한 인공지능(AI)의 기본이며, AI 시스템이 텍스트 기반 어시스턴트에서 실제 에이전트로 진화함에 따라 다양한 모달리티에서의 일관성을 확보하는 것이 중요해집니다. 현재 안전 기술은 텍스트 환경에서 성공적인 결과를 보여주지만, 시각적 입력에 대한 일반화 가능성에 대한 우려가 남아 있습니다. 기존의 도덕적 평가 벤치마크는 텍스트만 사용한 형태로 구성되어 있으며, 도덕적 의사 결정에 영향을 미치는 변수에 대한 체계적인 제어가 부족합니다. 본 연구에서는 최첨단(SOTA) 시각-언어 모델(VLM)에서 시각적 입력이 텍스트 기반 안전 장치를 우회하면서 근본적으로 도덕적 의사 결정을 변화시킨다는 것을 보여줍니다. 본 연구에서는 도덕적 기초 이론(MFT)에 기반한 다중 모달 벤치마크인 '도덕적 딜레마 시뮬레이션(MDS)'을 소개하여, 시각적 및 문맥 변수를 독립적으로 조작하여 메커니즘적 분석을 가능하게 합니다. 평가 결과, 시각 모달리티는 직관적인 경로를 활성화하여 텍스트만 사용한 환경에서 관찰되는 보다 신중하고 안전한 추론 패턴을 대체한다는 것을 알 수 있습니다. 이러한 결과는 언어 기반 안전 필터가 시각적 처리를 제약하지 못하는 중요한 취약점을 드러내며, 다중 모달 안전 정렬의 시급한 필요성을 보여줍니다.
Moral reasoning is fundamental to safe Artificial Intelligence (AI), yet ensuring its consistency across modalities becomes critical as AI systems evolve from text-based assistants to embodied agents. Current safety techniques demonstrate success in textual contexts, but concerns remain about generalization to visual inputs. Existing moral evaluation benchmarks rely on textonly formats and lack systematic control over variables that influence moral decision-making. Here we show that visual inputs fundamentally alter moral decision-making in state-of-the-art (SOTA) Vision-Language Models (VLMs), bypassing text-based safety mechanisms. We introduce Moral Dilemma Simulation (MDS), a multimodal benchmark grounded in Moral Foundation Theory (MFT) that enables mechanistic analysis through orthogonal manipulation of visual and contextual variables. The evaluation reveals that the vision modality activates intuition-like pathways that override the more deliberate and safer reasoning patterns observed in text-only contexts. These findings expose critical fragilities where language-tuned safety filters fail to constrain visual processing, demonstrating the urgent need for multimodal safety alignment.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.