인간-LLM 공동 작성 텍스트 분할: 변화점 탐지 기반 방법
Segmenting Human-LLM Co-authored Text via Change Point Detection
대규모 언어 모델(LLM)의 발전은 진위 여부를 확인하고 사회적 신뢰를 확보하기 위해 인간이 작성한 텍스트와 LLM이 생성한 텍스트를 구별하는 시급한 필요성을 야기했습니다. 기존의 탐지기는 일반적으로 전체 문장에 대한 이분법적 분류를 제공하지만, 이는 인간과 LLM이 공동으로 작성한 텍스트에는 충분하지 않습니다. 왜냐하면, 공동 작성 텍스트의 목표는 인간 또는 LLM이 작성한 특정 부분을 식별하는 것이기 때문입니다. 이러한 격차를 해소하기 위해, 우리는 텍스트를 인간과 LLM이 작성한 부분으로 분할하는 알고리즘을 제안합니다. 우리의 핵심적인 관찰은 이러한 분할 작업이 개념적으로 시계열 분석에서 고전적인 변화점 탐지와 유사하다는 것입니다. 이러한 유사성을 활용하여, 우리는 변화점 탐지 기법을 LLM이 생성한 텍스트 탐지에 적용하고, 다양한 탐지 점수 변동성을 수용하기 위한 가중 알고리즘과 일반화된 알고리즘을 개발했으며, 우리의 절차가 갖는 최소-최대 최적성을 입증했습니다. 실험적으로, 우리는 제안하는 방법이 다양한 기존 방법론에 비해 뛰어난 성능을 보임을 입증했습니다.
The rise of large language models (LLMs) has created an urgent need to distinguish between human-written and LLM-generated text to ensure authenticity and societal trust. Existing detectors typically provide a binary classification for an entire passage; however, this is insufficient for human--LLM co-authored text, where the objective is to localize specific segments authored by humans or LLMs. To bridge this gap, we propose algorithms to segment text into human- and LLM-authored pieces. Our key observation is that such a segmentation task is conceptually similar to classical change point detection in time-series analysis. Leveraging this analogy, we adapt change point detection to LLM-generated text detection, develop a weighted algorithm and a generalized algorithm to accommodate heterogeneous detection score variability, and establish the minimax optimality of our procedure. Empirically, we demonstrate the strong performance of our approach against a wide range of existing baselines.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.