훈련에 제약 없는 이중 시스템 프레임워크를 통한 자기 지도형 음성 합성 이미지 판별 성능 향상
Enhancing Self-Supervised Talking Head Forgery Detection via a Training-Free Dual-System Framework
지도 학습 기반 음성 합성 이미지 판별 기술은 생성 모델의 지속적인 발전에 따라 일반화에 심각한 어려움을 겪습니다. 자기 지도 학습 기반 판별기는 생성 모델에 특화된 패턴에 대한 의존성을 줄여 다양한 생성 모델에 대한 높은 안정성을 제공합니다. 그러나 기존 연구는 주로 판별기의 성능 향상에 초점을 맞추고 있으며, 훈련된 판별기의 판별력은 충분히 활용되지 못하고 있습니다. 특히, 점수 기반 자기 지도 학습 판별기의 경우, 어려운 사례에 대한 제한적인 판별력은 종종 신뢰할 수 없는 이상치 순서로 이어져 추가적인 개선의 여지가 있습니다. 이러한 점에 착안하여, 본 연구에서는 인간 인지 이론의 이중 시스템 이론에서 영감을 받아, 기존 점수 기반 자기 지도 학습 판별기의 잠재적인 판별력을 더욱 효과적으로 활용하는 훈련에 제약 없는 이중 시스템(TFDS) 프레임워크를 제안합니다. TFDS는 이상치와 유사한 점수를 시스템 1의 기준으로 삼고, 경량화된 임계값 기반 라우팅을 사용하여 샘플을 확실한 부분집합과 불확실한 부분집합으로 분리합니다. 시스템 2는 불확실한 부분집합에 대해서만 작동하며, 미세한 증거 기반 추론을 통해 원래 점수 분포 내에서 모호한 샘플들의 상대적인 순서를 개선합니다. 광범위한 실험 결과, 다양한 데이터셋 및 환경 설정에서 일관된 성능 향상을 보였으며, 이러한 개선은 주로 불확실한 부분집합 내에서의 순서 정렬 개선에서 비롯되었습니다. 이러한 결과는 기존의 자기 지도 학습 기반 음성 합성 이미지 판별기들이 아직 활용되지 않은 판별적인 단서를 가지고 있으며, 훈련에 제약 없는 이중 시스템 추론을 통해 이를 효과적으로 활용할 수 있음을 보여줍니다.
Supervised talking head forgery detection faces severe generalization challenges due to the continuous evolution of generators. By reducing reliance on generator-specific forgery patterns, self-supervised detectors offer stronger cross-generator robustness. However, existing research has mainly focused on building stronger detectors, while the discriminative capacity of trained detectors remains insufficiently exploited. In particular, for score-based self-supervised detectors, the limited discriminative ability on hard cases is often reflected in unreliable anomaly ordering, leaving room for further refinement. Motivated by this observation, we draw inspiration from the dual-system theory of human cognition and propose a Training-Free Dual-System (TFDS) framework to further exploit the latent discriminative capacity of existing score-based self-supervised detectors. TFDS treats anomaly-like scores as the basis of System-1, using lightweight threshold-based routing to partition samples into confident and uncertain subsets. System-2 then revisits only the uncertain subset, performing fine-grained evidence-guided reasoning to refine the relative ordering of ambiguous samples within the original score distribution. Extensive experiments demonstrate consistent improvements across datasets and perturbation settings, with the gains arising mainly from corrected ordering within the uncertain subset. These findings show that existing self-supervised talking head forgery detectors still contain underexploited discriminative cues that can be effectively unlocked through training-free dual-system reasoning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.