2602.09475v1 Feb 10, 2026 cs.CV

ArtifactLens: 수백 개의 레이블만으로 VLM을 활용한 아티팩트 탐지

ArtifactLens: Hundreds of Labels Are Enough for Artifact Detection with VLMs

S. Yeung-Levy
S. Yeung-Levy
Citations: 1,244
h-index: 20
James Burgess
James Burgess
Citations: 7
h-index: 1
Rameen Abdal
Rameen Abdal
Citations: 0
h-index: 0
Sergey Tulyakov
Sergey Tulyakov
Citations: 727
h-index: 13
Kuan-Chieh Wang
Kuan-Chieh Wang
Citations: 230
h-index: 5
D. Stoddart
D. Stoddart
Citations: 23
h-index: 1

최신 이미지 생성기는 놀랍도록 사실적인 이미지를 생성하지만, 왜곡된 손이나 뒤틀린 물체와 같은 아티팩트만이 그 합성적인 기원을 드러냅니다. 이러한 아티팩트를 탐지하는 것은 매우 중요합니다. 탐지가 없다면, 생성기를 평가하거나 성능 향상을 위한 보상 모델을 훈련할 수 없습니다. 현재의 탐지 시스템은 수만 개의 레이블이 붙은 이미지로 VLM을 미세 조정하지만, 생성기가 진화하거나 새로운 유형의 아티팩트가 나타날 때마다 이러한 작업은 비용이 많이 듭니다. 우리는 사전 훈련된 VLM이 이미 아티팩트 탐지에 필요한 지식을 내재하고 있으며, 적절한 구조를 통해 단지 수백 개의 레이블이 주어진 예시만으로도 이러한 능력을 활용할 수 있음을 보여줍니다. 저희 시스템인 ArtifactLens는 다섯 가지 인간이 만든 아티팩트 벤치마크에서 최고 성능을 달성했으며 (다양한 데이터셋에 대한 최초의 평가), 기존 방식보다 훨씬 적은 양의 레이블 데이터만 사용했습니다. 이 구조는 인컨텍스트 학습과 텍스트 지침 최적화를 포함하는 다중 구성 아키텍처로 구성되어 있으며, 각 구성 요소에 대한 새로운 개선 사항이 적용되었습니다. 저희의 방법은 다른 유형의 아티팩트 (객체 형태, 동물 해부학, 개체 상호 작용) 및 AIGC 탐지와 같은 별개의 작업에도 적용될 수 있습니다.

Original Abstract

Modern image generators produce strikingly realistic images, where only artifacts like distorted hands or warped objects reveal their synthetic origin. Detecting these artifacts is essential: without detection, we cannot benchmark generators or train reward models to improve them. Current detectors fine-tune VLMs on tens of thousands of labeled images, but this is expensive to repeat whenever generators evolve or new artifact types emerge. We show that pretrained VLMs already encode the knowledge needed to detect artifacts - with the right scaffolding, this capability can be unlocked using only a few hundred labeled examples per artifact category. Our system, ArtifactLens, achieves state-of-the-art on five human artifact benchmarks (the first evaluation across multiple datasets) while requiring orders of magnitude less labeled data. The scaffolding consists of a multi-component architecture with in-context learning and text instruction optimization, with novel improvements to each. Our methods generalize to other artifact types - object morphology, animal anatomy, and entity interactions - and to the distinct task of AIGC detection.

0 Citations
0 Influential
10 Altmetric
50.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!