다중 모드 생성 엔진 최적화: 시각-언어 모델 순위 결정기의 순위 조작
Multimodal Generative Engine Optimization: Rank Manipulation for Vision-Language Model Rankers
시각-언어 모델(VLM)은 현대 검색 및 추천 시스템에서 단일 모드 인코더를 빠르게 대체하고 있습니다. 이들의 기능은 잘 문서화되어 있지만, 경쟁적인 순위 결정 시나리오에서 적대적인 조작에 대한 견고성은 아직 충분히 연구되지 않았습니다. 본 논문에서는 VLM 기반 제품 검색의 중요한 취약점을 밝혀냅니다. 바로 다중 모드 순위 공격입니다. 우리는 다중 모드 생성 엔진 최적화(MGEO)라는 새로운 적대적 프레임워크를 제시합니다. MGEO는 악의적인 사용자가 인지할 수 없는 이미지 변경과 자연스러운 텍스트 추가를 동시에 최적화하여 특정 제품을 부당하게 홍보할 수 있도록 합니다. 기존 공격들이 모드를 개별적으로 처리하는 것과는 달리, MGEO는 VLM 내의 깊은 상호 모드 결합을 활용하기 위해 교대로 그래디언트 기반 최적화 전략을 사용합니다. 최첨단 모델을 사용하여 실제 데이터 세트에 대한 광범위한 실험 결과, 우리의 조정된 공격은 텍스트만 사용하거나 이미지만 사용하는 기본 공격보다 훨씬 우수한 성능을 보이는 것을 확인했습니다. 이러한 결과는 일반적으로 VLM의 강점인 다중 모드 시너지 효과가 기존의 콘텐츠 필터를 우회하여 검색 순위의 무결성을 손상시키는 데 사용될 수 있음을 보여줍니다.
Vision-Language Models (VLMs) are rapidly replacing unimodal encoders in modern retrieval and recommendation systems. While their capabilities are well-documented, their robustness against adversarial manipulation in competitive ranking scenarios remains largely unexplored. In this paper, we uncover a critical vulnerability in VLM-based product search: multimodal ranking attacks. We present Multimodal Generative Engine Optimization (MGEO), a novel adversarial framework that enables a malicious actor to unfairly promote a target product by jointly optimizing imperceptible image perturbations and fluent textual suffixes. Unlike existing attacks that treat modalities in isolation, MGEO employs an alternating gradient-based optimization strategy to exploit the deep cross-modal coupling within the VLM. Extensive experiments on real-world datasets using state-of-the-art models demonstrate that our coordinated attack significantly outperforms text-only and image-only baselines. These findings reveal that multimodal synergy, typically a strength of VLMs, can be weaponized to compromise the integrity of search rankings without triggering conventional content filters.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.