2603.20193v1 Mar 20, 2026 cs.CV

마스크에서 픽셀과 의미로: VLM 이미지 조작에 대한 새로운 분류 체계, 벤치마크 및 평가 지표

From Masks to Pixels and Meaning: A New Taxonomy, Benchmark, and Metrics for VLM Image Tampering

Xiaohan Zhao
Xiaohan Zhao
Citations: 82
h-index: 6
Zhiqiang Shen
Zhiqiang Shen
Citations: 75
h-index: 5
Xinyi Shang
Xinyi Shang
Citations: 22
h-index: 2
Jiacheng Cui
Jiacheng Cui
Citations: 63
h-index: 4
Yidong Tang
Yidong Tang
Citations: 2
h-index: 1
Ahmed Elhagry
Ahmed Elhagry
Citations: 60
h-index: 3
Salwa K. Al Khatib
Salwa K. Al Khatib
Citations: 183
h-index: 6
S. Mahmoud Bsharat
S. Mahmoud Bsharat
Citations: 219
h-index: 3
Jiachen Liu
Jiachen Liu
Citations: 10
h-index: 2
Jing-Hao Xue
Jing-Hao Xue
Citations: 56
h-index: 2
Hao Li
Hao Li
Citations: 93
h-index: 3
Salman Khan
Salman Khan
Citations: 18
h-index: 1

기존의 조작 탐지 벤치마크는 주로 객체 마스크에 의존하는데, 이는 실제 조작 신호와 크게 일치하지 않습니다. 마스크 내의 많은 픽셀은 변경되지 않았거나 경미하게만 수정된 반면, 마스크 외부의 미묘하지만 중요한 변경 사항은 자연스러운 것으로 간주됩니다. 우리는 VLM 이미지 조작을 거친 영역 레이블에서 픽셀 단위의 의미와 언어 인식을 갖춘 작업으로 재구성합니다. 첫째, 우리는 편집 원시(교체/제거/합치기/채우기/속성/색상화 등)과 조작된 객체의 의미적 범주를 연결하여 저수준 변경과 고수준 이해를 연결하는 분류 체계를 제시합니다. 둘째, 우리는 픽셀 단위의 조작 지도를 포함하고, 통합된 프로토콜 내에서 탐지 및 분류를 평가하기 위한 쌍으로 구성된 범주 감독을 제공하는 새로운 벤치마크를 공개합니다. 셋째, 우리는 픽셀 수준의 정확성을 정량화하고, 진정한 편집 강도에 대한 신뢰도 또는 예측을 평가하기 위해 위치 정보를 활용하는 학습 프레임워크와 평가 지표를 제안합니다. 또한, 의미 인식 분류 및 예측된 영역에 대한 자연어 설명을 통해 조작의 의미 이해를 더욱 측정합니다. 우리는 또한 기존의 강력한 분할/위치 추적 기준을 최신 강력한 조작 탐지기에 적용하여 마스크 기반 지표를 사용할 때 상당한 과대/과소 평가가 발생하는 것을 밝히고, 미세 조작 및 마스크 외부 변경에 대한 실패 사례를 보여줍니다. 우리의 프레임워크는 마스크에서 픽셀, 의미 및 언어 설명으로 발전하여 조작 위치 추적, 의미 분류 및 설명에 대한 엄격한 표준을 확립합니다. 코드 및 벤치마크 데이터는 https://github.com/VILA-Lab/PIXAR 에서 확인할 수 있습니다.

Original Abstract

Existing tampering detection benchmarks largely rely on object masks, which severely misalign with the true edit signal: many pixels inside a mask are untouched or only trivially modified, while subtle yet consequential edits outside the mask are treated as natural. We reformulate VLM image tampering from coarse region labels to a pixel-grounded, meaning and language-aware task. First, we introduce a taxonomy spanning edit primitives (replace/remove/splice/inpaint/attribute/colorization, etc.) and their semantic class of tampered object, linking low-level changes to high-level understanding. Second, we release a new benchmark with per-pixel tamper maps and paired category supervision to evaluate detection and classification within a unified protocol. Third, we propose a training framework and evaluation metrics that quantify pixel-level correctness with localization to assess confidence or prediction on true edit intensity, and further measure tamper meaning understanding via semantics-aware classification and natural language descriptions for the predicted regions. We also re-evaluate the existing strong segmentation/localization baselines on recent strong tamper detectors and reveal substantial over- and under-scoring using mask-only metrics, and expose failure modes on micro-edits and off-mask changes. Our framework advances the field from masks to pixels, meanings and language descriptions, establishing a rigorous standard for tamper localization, semantic classification and description. Code and benchmark data are available at https://github.com/VILA-Lab/PIXAR.

0 Citations
0 Influential
23 Altmetric
115.0 Score
Original PDF
0

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!