정렬 흔적: 증명 가능한 선호도 불일치를 통한 제로샷 AI 생성 텍스트 탐지
Alignment Imprint: Zero-Shot AI-Generated Text Detection via Provable Preference Discrepancy
AI 생성 텍스트 탐지는 중요한 과제이지만 어려운 문제입니다. 기존의 likelihood 기반 탐지 방법은 종종 콘텐츠 복잡성에 민감하며 불안정한 성능을 보일 수 있습니다. 본 논문에서는 핵심적인 통찰력으로, 현대적인 대규모 언어 모델(LLM)은 정렬 과정(파인 튜닝 및 선호도 튜닝 포함)을 거치면서 측정 가능한 분포적 흔적을 남긴다는 것을 밝힙니다. 우리는 정렬 과정을 제약 조건 최적화 단계의 시퀀스로 추상화하여 이 흔적을 이론적으로 유도하고, likelihood 비율이 암묵적인 지시 편향과 선호도 보상으로 자연스럽게 분해되는 것을 보여줍니다. 우리는 이 양을 '정렬 흔적(Alignment Imprint)'이라고 부릅니다. 또한, 높은 엔트로피 영역에서의 불안정성을 완화하기 위해, 정렬 흔적을 기반으로 표준화된 정보 가중 통계량인 Log-likelihood Alignment Preference Discrepancy (LAPD)를 제안합니다. 우리는 LAPD가 Fast-DetectGPT보다 성능이 우수하며, 정렬 기반 통계량이 우위를 점한다는 통계적 보장을 제공합니다. 또한, 정렬된 모델과 기본 모델의 분포가 유사할 때 LAPD가 가중치 없는 정렬 점수를 엄격하게 개선한다는 것을 이론적으로 보여줍니다. 광범위한 실험 결과, LAPD는 가장 강력한 기존 기준 모델보다 45.82%의 성능 향상을 달성했으며, 모든 환경에서 큰 폭의 일관된 성능 향상을 보였습니다.
Detecting AI-generated text is an important but challenging problem. Existing likelihood-based detection methods are often sensitive to content complexity and may exhibit unstable performance. In this paper, our key insight is that modern Large Language Models (LLMs) undergo alignment (including fine-tuning and preference tuning), leaving a measurable distributional imprint. We theoretically derive this imprint by abstracting the alignment process as a sequence of constrained optimization steps, showing that the log-likelihood ratio can naturally decompose into implicit instructional biases and preference rewards. We refer to this quantity as the Alignment Imprint. Furthermore, to mitigate the instability in high-entropy regions, we introduce Log-likelihood Alignment Preference Discrepancy (LAPD), a standardized information-weighted statistic based on alignment imprint. We provide statistical guarantee that alignment-based statistics dominate Fast-DetectGPT in performance. We also theoretically show that LAPD strictly improves the unweighted alignment scores when the aligned and base models are close in distribution. Extensive experiments show that LAPD achieves an improvement 45.82% relative to the strongest existing baselines, yielding large and consistent gains across all settings.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.