SLAM: 언어 모델을 위한 구조적 언어 활성화 마킹
SLAM: Structural Linguistic Activation Marking for Language Models
LLM 워터마크는 텍스트 품질을 저해하지 않고 감지 가능해야 하지만, 대부분의 기존 방식은 다음 토큰 분포에 편향을 주어 감지 성능을 높이는 대신 눈에 띄는 품질 저하를 야기합니다. 본 논문에서는 구조적 기하학에 워터마크를 삽입하여 이러한 비용을 회피하는 새로운 화이트박스 워터마킹 기법인 SLAM(Structural Linguistic Activation Marking)을 제시합니다. 희소 오토인코더는 잔류 스트림 방향을 식별하여 언어 구조(예: 화자, 시제, 절 순서)를 인코딩하고, 생성 시점에 이러한 방향을 인과적으로 조작하여 어휘 선택 및 의미론적 제약을 최소화합니다. Gemma-2 2B 및 9B 모델에서 SLAM은 1~2개의 보상 포인트의 미미한 품질 저하로 100%의 감지 정확도를 달성하며, 이는 KGW, EWD, 및 Unigram과 같은 기존 방식의 7.5~11.5 포인트에 비해 훨씬 우수한 성능입니다. 또한 SLAM은 자연스러움과 다양성을 거의 워터마크가 없는 수준으로 유지합니다. SLAM은 단어 수준의 편집에는 강건하지만, 구문 구조를 재구성하는 패러프레이즈에는 취약하며, 이는 토큰 분포 기반 방식과는 상반되는 특성입니다. (즉, 토큰 분포 기반 방식은 패러프레이즈에 강건하지만 단어 수준의 편집에 취약합니다.)
LLM watermarks must be detectable without compromising text quality, yet most existing schemes bias the next-token distribution and pay for detection with measurable quality loss. We present SLAM (Structural Linguistic Activation Marking), a novel white-box watermarking scheme that sidesteps this cost by writing the mark into structural geometry rather than token frequencies: sparse autoencoders identify residual-stream directions encoding linguistic structure (e.g., voice, tense, clause order), and we causally steer those directions at generation time, leaving lexical sampling and semantics unconstrained. On Gemma-2 2B and 9B, SLAM achieves 100% detection accuracy with a quality cost of only 1-2 reward points - compared to 7.5-11.5 for KGW, EWD, and Unigram - with naturalness and diversity preserved at near-unwatermarked levels across both models. The trade-off is a complementary robustness profile: SLAM resists word-level edits but is vulnerable to paraphrase that restructures syntax (at a quality cost), the converse of token-distribution methods.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.