DSIPA: 감정-불변 패턴 차이 분석을 통한 LLM 생성 텍스트 탐지
DSIPA: Detecting LLM-Generated Texts via Sentiment-Invariant Patterns Divergence Analysis
대규모 언어 모델(LLM)의 급속한 발전은 새로운 보안 문제를 야기하며, 특히 허위 정보, 사칭, 콘텐츠 위조에 사용되는 기계 생성 텍스트를 탐지하는 데 어려움을 초래합니다. 기존의 대부분 탐지 방법은 적대적 공격, 패러프레이징 공격 및 도메인 변화에 취약하며, 종종 모델 파라미터에 대한 제한적인 접근 권한이나 대규모 레이블링된 데이터 세트가 필요합니다. 이러한 문제를 해결하기 위해, 우리는 통제된 스타일 변형 하에서 감정 분포의 안정성을 측정하여 LLM 생성 콘텐츠를 탐지하는 새로운 학습-불필요 프레임워크인 DSIPA를 제안합니다. DSIPA는 LLM이 일반적으로 더 일관된 감정 표현을 보이지만, 인간이 작성한 텍스트는 더 큰 감정적 다양성을 나타낸다는 관찰에 기반합니다. 본 프레임워크는 파라미터 업데이트나 확률 접근 권한 없이, 감정 분포 일관성 및 감정 분포 보존이라는 두 가지 비지도 측정 지표를 활용하여 이러한 고유한 행동적 비대칭성을 포착하는 제로샷, 블랙박스 방식으로 작동합니다. GPT-5.2, Gemini-1.5-pro, Claude-3, 및 LLaMa-3.3을 포함한 최첨단 독점 및 오픈 소스 모델에 대한 광범위한 실험을 수행했습니다. 뉴스 기사, 프로그래밍 코드, 학생 에세이, 학술 논문, 커뮤니티 댓글 등 5가지 도메인에 대한 평가 결과, DSIPA는 기존 방법보다 최대 49.89% 더 높은 F1 탐지 점수를 달성했습니다. 본 프레임워크는 다양한 도메인에서 우수한 일반화 성능을 보이며, 적대적인 환경에서도 강한 견고성을 보여주어, 진화하는 LLM 환경에서 안전한 콘텐츠 식별을 위한 강력하고 해석 가능한 행동적 신호를 제공합니다.
The rapid advancement of large language models (LLMs) presents new security challenges, particularly in detecting machine-generated text used for misinformation, impersonation, and content forgery. Most existing detection approaches struggle with robustness against adversarial perturbation, paraphrasing attacks, and domain shifts, often requiring restrictive access to model parameters or large labeled datasets. To address this, we propose DSIPA, a novel training-free framework that detects LLM-generated content by quantifying sentiment distributional stability under controlled stylistic variation. It is based on the observation that LLMs typically exhibit more emotionally consistent outputs, while human-written texts display greater affective variation. Our framework operates in a zero-shot, black-box manner, leveraging two unsupervised metrics, sentiment distribution consistency and sentiment distribution preservation, to capture these intrinsic behavioral asymmetries without the need for parameter updates or probability access. Extensive experiments are conducted on state-of-the-art proprietary and open-source models, including GPT-5.2, Gemini-1.5-pro, Claude-3, and LLaMa-3.3. Evaluations on five domains, such as news articles, programming code, student essays, academic papers, and community comments, demonstrate that DSIPA improves F1 detection scores by up to 49.89% over baseline methods. The framework exhibits superior generalizability across domains and strong resilience to adversarial conditions, providing a robust and interpretable behavioral signal for secure content identification in the evolving LLM landscape.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.