마스크에서 픽셀과 의미로: VLM 이미지 조작에 대한 새로운 분류 체계, 벤치마크 및 평가 지표
From Masks to Pixels and Meaning: A New Taxonomy, Benchmark, and Metrics for VLM Image Tampering
기존의 조작 탐지 벤치마크는 주로 객체 마스크에 의존하는데, 이는 실제 조작 신호와 크게 일치하지 않습니다. 마스크 내의 많은 픽셀은 변경되지 않았거나 경미하게만 수정된 반면, 마스크 외부의 미묘하지만 중요한 변경 사항은 자연스러운 것으로 간주됩니다. 우리는 VLM 이미지 조작을 거친 영역 레이블에서 픽셀 단위의 의미와 언어 인식을 갖춘 작업으로 재구성합니다. 첫째, 우리는 편집 원시(교체/제거/합치기/채우기/속성/색상화 등)과 조작된 객체의 의미적 범주를 연결하여 저수준 변경과 고수준 이해를 연결하는 분류 체계를 제시합니다. 둘째, 우리는 픽셀 단위의 조작 지도를 포함하고, 통합된 프로토콜 내에서 탐지 및 분류를 평가하기 위한 쌍으로 구성된 범주 감독을 제공하는 새로운 벤치마크를 공개합니다. 셋째, 우리는 픽셀 수준의 정확성을 정량화하고, 진정한 편집 강도에 대한 신뢰도 또는 예측을 평가하기 위해 위치 정보를 활용하는 학습 프레임워크와 평가 지표를 제안합니다. 또한, 의미 인식 분류 및 예측된 영역에 대한 자연어 설명을 통해 조작의 의미 이해를 더욱 측정합니다. 우리는 또한 기존의 강력한 분할/위치 추적 기준을 최신 강력한 조작 탐지기에 적용하여 마스크 기반 지표를 사용할 때 상당한 과대/과소 평가가 발생하는 것을 밝히고, 미세 조작 및 마스크 외부 변경에 대한 실패 사례를 보여줍니다. 우리의 프레임워크는 마스크에서 픽셀, 의미 및 언어 설명으로 발전하여 조작 위치 추적, 의미 분류 및 설명에 대한 엄격한 표준을 확립합니다. 코드 및 벤치마크 데이터는 https://github.com/VILA-Lab/PIXAR 에서 확인할 수 있습니다.
Existing tampering detection benchmarks largely rely on object masks, which severely misalign with the true edit signal: many pixels inside a mask are untouched or only trivially modified, while subtle yet consequential edits outside the mask are treated as natural. We reformulate VLM image tampering from coarse region labels to a pixel-grounded, meaning and language-aware task. First, we introduce a taxonomy spanning edit primitives (replace/remove/splice/inpaint/attribute/colorization, etc.) and their semantic class of tampered object, linking low-level changes to high-level understanding. Second, we release a new benchmark with per-pixel tamper maps and paired category supervision to evaluate detection and classification within a unified protocol. Third, we propose a training framework and evaluation metrics that quantify pixel-level correctness with localization to assess confidence or prediction on true edit intensity, and further measure tamper meaning understanding via semantics-aware classification and natural language descriptions for the predicted regions. We also re-evaluate the existing strong segmentation/localization baselines on recent strong tamper detectors and reveal substantial over- and under-scoring using mask-only metrics, and expose failure modes on micro-edits and off-mask changes. Our framework advances the field from masks to pixels, meanings and language descriptions, establishing a rigorous standard for tamper localization, semantic classification and description. Code and benchmark data are available at https://github.com/VILA-Lab/PIXAR.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.