2601.07291v1 Jan 12, 2026 cs.CV

프리픽스 튜닝 기반 시각적 의미 적응 워터마크: 대규모 비전-언어 모델을 위한 방법

A Visual Semantic Adaptive Watermark grounded by Prefix-Tuning for Large Vision-Language Model

Shuliang Liu
Shuliang Liu
Citations: 228
h-index: 7
Yibo Yan
Yibo Yan
Citations: 1,005
h-index: 18
Qi Zheng
Qi Zheng
Citations: 14
h-index: 2
Aiwei Liu
Aiwei Liu
Tsinghua University
Citations: 1,500
h-index: 21
Sihang Jia
Sihang Jia
Citations: 6
h-index: 1
Yu Huang
Yu Huang
Citations: 104
h-index: 2
Jungang Li
Jungang Li
Citations: 62
h-index: 5
Lyuhao Chen
Lyuhao Chen
Citations: 0
h-index: 0
Junhao Chen
Junhao Chen
Citations: 1
h-index: 1
Hanqian Li
Hanqian Li
Citations: 102
h-index: 5
Xuming Hu
Xuming Hu
Citations: 70
h-index: 5

워터마킹은 대규모 비전-언어 모델(LVLM)에서 콘텐츠 추적성 및 지적 재산 보호를 위한 중요한 솔루션으로 부상했습니다. 그러나 비전 무관 워터마크는 시각적으로 관련 없는 토큰을 도입하고, 무분별한 의사 난수 편향을 강제하여 시각적 연관성을 방해하며, 일부 의미 기반 방법은 거부 샘플링으로 인해 엄청난 추론 지연을 초래합니다. 본 논문에서는 검출 가능한 신호를 포함하면서 시각적 충실도를 엄격하게 유지하는 새로운 프레임워크인 VIsual Semantic Adaptive Watermark (VISA-Mark)를 제안합니다. 저희의 접근 방식은 경량화되고 효율적으로 학습된 프리픽스 튜너를 사용하여 시각적 입력을 기반으로 후보 토큰에 대한 증거 지원 정도를 나타내는 동적 시각적 증거 가중치를 추출합니다. 이러한 가중치는 적응형 어휘 파티셔닝 및 로짓 교란 메커니즘을 안내하여 워터마크 강도를 시각적으로 지원되는 토큰에 집중시킵니다. VISA-Mark는 워터마크를 적극적으로 시각적 증거와 일치시켜 시각적 충실도를 효과적으로 유지합니다. 실험 결과는 VISA-Mark가 기존 방법보다 시각적 일관성(Chair-I)이 7.8% 향상되고, 더 우수한 의미적 충실도를 달성한다는 것을 확인합니다. 또한, VISA-Mark는 높은 검출 정확도(96.88% AUC)와 강력한 공격 방어력(99.3%)을 유지하면서 추론 효율성을 희생하지 않고, 신뢰성을 유지하는 다중 모드 워터마킹에 대한 새로운 기준을 제시합니다.

Original Abstract

Watermarking has emerged as a pivotal solution for content traceability and intellectual property protection in Large Vision-Language Models (LVLMs). However, vision-agnostic watermarks introduce visually irrelevant tokens and disrupt visual grounding by enforcing indiscriminate pseudo-random biases, while some semantic-aware methods incur prohibitive inference latency due to rejection sampling. In this paper, we propose the VIsual Semantic Adaptive Watermark (VISA-Mark), a novel framework that embeds detectable signals while strictly preserving visual fidelity. Our approach employs a lightweight, efficiently trained prefix-tuner to extract dynamic Visual-Evidence Weights, which quantify the evidentiary support for candidate tokens based on the visual input. These weights guide an adaptive vocabulary partitioning and logits perturbation mechanism, concentrating watermark strength specifically on visually-supported tokens. By actively aligning the watermark with visual evidence, VISA-Mark effectively maintains visual fidelity. Empirical results confirm that VISA-Mark outperforms conventional methods with a 7.8% improvement in visual consistency (Chair-I) and superior semantic fidelity. The framework maintains highly competitive detection accuracy (96.88% AUC) and robust attack resilience (99.3%) without sacrificing inference efficiency, effectively establishing a new standard for reliability-preserving multimodal watermarking.

0 Citations
0 Influential
10.5 Altmetric
52.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!