2603.17522v1 Mar 18, 2026 cs.CL

머신을 탐지하다: 다양한 아키텍처, 도메인, 적대적 환경에서의 AI 생성 텍스트 탐지기의 종합적인 성능 평가

Detecting the Machine: A Comprehensive Benchmark of AI-Generated Text Detectors Across Architectures, Domains, and Adversarial Conditions

Madhav S. Baidya
Madhav S. Baidya
Citations: 0
h-index: 0
Chirag Chawla
Chirag Chawla
Citations: 1
h-index: 1
S. Baidya
S. Baidya
Citations: 7
h-index: 1

대규모 언어 모델(LLM)의 급속한 확산은 기계 생성 텍스트를 탐지하는 강력하고 일반화 가능한 시스템의 필요성을 야기했습니다. 기존의 벤치마크는 일반적으로 이상적인 조건에서 단일 데이터 세트에 대한 단일 탐지기를 평가하며, 이는 교차 도메인 전이, 교차 LLM 일반화 및 적대적 강건성과 같은 문제에 대한 답을 제공하지 못합니다. 본 연구에서는 두 개의 코퍼스(HC3: 23,363개의 인간-ChatGPT 쌍, ELI5: 15,000개의 인간-Mistral-7B 쌍)에 걸쳐 다양한 탐지 접근 방식을 평가하는 종합적인 벤치마크를 제시합니다. 방법론에는 전통적인 분류기, 미세 조정된 트랜스포머 인코더(BERT, RoBERTa, ELECTRA, DistilBERT, DeBERTa-v3), CNN, XGBoost 스타일 메트릭 모델, 퍼플렉시티 기반 탐지기, 그리고 LLM을 탐지기로 활용하는 프롬프팅 방식이 포함됩니다. 결과에 따르면, 트랜스포머 모델은 동일한 데이터 분포 내에서 거의 완벽한 성능을 보이지만, 도메인 변화 시 성능이 저하됩니다. XGBoost 스타일 메트릭 모델은 비슷한 성능을 보이면서도 해석 가능성을 유지합니다. LLM 기반 탐지기는 성능이 낮으며, 생성기-탐지기 동일성 편향의 영향을 받습니다. 퍼플렉시티 기반 방법은 극성 반전을 보이지만, 수정하면 효과적입니다. 어떤 방법도 도메인과 LLM 소스에 대해 강력하게 일반화되지 않습니다.

Original Abstract

The rapid proliferation of large language models (LLMs) has created an urgent need for robust and generalizable detectors of machine-generated text. Existing benchmarks typically evaluate a single detector on a single dataset under ideal conditions, leaving open questions about cross-domain transfer, cross-LLM generalization, and adversarial robustness. We present a comprehensive benchmark evaluating diverse detection approaches across two corpora: HC3 (23,363 human-ChatGPT pairs) and ELI5 (15,000 human-Mistral-7B pairs). Methods include classical classifiers, fine-tuned transformer encoders (BERT, RoBERTa, ELECTRA, DistilBERT, DeBERTa-v3), a CNN, an XGBoost stylometric model, perplexity-based detectors, and LLM-as-detector prompting. Results show that transformer models achieve near-perfect in-distribution performance but degrade under domain shift. The XGBoost stylometric model matches performance while remaining interpretable. LLM-based detectors underperform and are affected by generator-detector identity bias. Perplexity-based methods exhibit polarity inversion, with modern LLM outputs showing lower perplexity than human text, but remain effective when corrected. No method generalizes robustly across domains and LLM sources.

0 Citations
0 Influential
0.5 Altmetric
2.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!