LLM 워터마크를 위한 통일된 프레임워크
A Unified Framework for LLM Watermarks
LLM 워터마크는 생성된 텍스트에 감지 가능한 신호를 삽입하여 AI가 생성한 텍스트를 추적할 수 있도록 합니다. 최근 연구에서는 다양한 워터마킹 알고리즘이 제안되었으며, 각 알고리즘은 고유한 설계 방식을 가지고 있으며, 일반적으로 바텀업 방식으로 구축됩니다. 중요한 점은 LLM 워터마킹에 대한 일반적이고 원칙적인 공식화가 존재하지 않는다는 것입니다. 본 연구에서는 대부분의 기존 및 널리 사용되는 워터마킹 방식이 실제로 원칙적인 제약 조건 최적화 문제로부터 도출될 수 있음을 보여줍니다. 우리의 공식화는 기존 워터마킹 방법을 통합하고 각 방법이 최적화하는 제약 조건을 명시적으로 드러냅니다. 특히, 연구가 부족한 품질-다양성-강력성 간의 상호 관계를 강조합니다. 동시에, 우리의 프레임워크는 특정 요구 사항에 맞춰 새로운 워터마킹 방식을 설계하는 데 필요한 원칙적인 접근 방식을 제공합니다. 예를 들어, 퍼플렉시티를 품질의 지표로 직접 사용할 수 있으며, 이 제약 조건에 대해 최적화된 새로운 방식을 도출할 수 있습니다. 우리의 실험적 평가 결과는 우리의 프레임워크를 검증합니다. 주어진 제약 조건으로부터 도출된 워터마킹 방식은 해당 제약 조건에 대해 일관되게 검출 성능을 극대화합니다.
LLM watermarks allow tracing AI-generated texts by inserting a detectable signal into their generated content. Recent works have proposed a wide range of watermarking algorithms, each with distinct designs, usually built using a bottom-up approach. Crucially, there is no general and principled formulation for LLM watermarking. In this work, we show that most existing and widely used watermarking schemes can in fact be derived from a principled constrained optimization problem. Our formulation unifies existing watermarking methods and explicitly reveals the constraints that each method optimizes. In particular, it highlights an understudied quality-diversity-power trade-off. At the same time, our framework also provides a principled approach for designing novel watermarking schemes tailored to specific requirements. For instance, it allows us to directly use perplexity as a proxy for quality, and derive new schemes that are optimal with respect to this constraint. Our experimental evaluation validates our framework: watermarking schemes derived from a given constraint consistently maximize detection power with respect to that constraint.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.