사고의 정제, 답변의 워터마킹: 대규모 추론 모델을 위한 주 의미 유도 워터마크
Distilling the Thought, Watermarking the Answer: A Principle Semantic Guided Watermark for Large Reasoning Models
복잡한 작업에서 뛰어난 성능을 보이는 추론형 대규모 언어 모델(RLLM)은 기존 방법들이 종종 논리적 일관성을 저해하거나 높은 계산 비용을 발생시키기 때문에 디지털 워터마킹에 있어 고유한 난제를 제시합니다. 토큰 기반 워터마킹 기술은 의사 난수 편향을 적용하여 추론 흐름을 손상시킬 수 있는 반면, 의미 인식 접근법은 품질은 개선하나 상당한 지연을 유발하거나 보조 모델을 필요로 합니다. 본 논문은 추론 집약적 LLM을 위해 특별히 설계된 새로운 워터마킹 프레임워크인 ReasonMark를 소개합니다. 우리의 접근 방식은 생성 과정을 방해받지 않는 '사고 단계(Thinking Phase)'와 워터마크가 삽입되는 '답변 단계(Answering Phase)'로 분리합니다. 우리는 추론 흔적에서 의미적으로 핵심적인 토큰을 식별하기 위해 중요도 점수(Criticality Score)를 제안하며, 이는 주 의미 벡터(Principal Semantic Vector, PSV)로 정제됩니다. 이후 PSV는 토큰-PSV 정렬에 기반하여 워터마크 강도를 조절하는 의미 적응형 메커니즘을 유도하여, 논리적 무결성을 훼손하지 않으면서 견고성을 보장합니다. 광범위한 실험을 통해 ReasonMark가 텍스트 퍼플렉서티(Perplexity)를 0.35 감소시키고, 번역 BLEU 점수를 0.164 증가시키며, 수학적 정확도를 0.67점 향상시켜 최첨단 방법들을 능가함을 보여줍니다. 이러한 성과는 0.34% 더 높은 워터마크 탐지 AUC와 공격에 대한 더 강력한 견고성을 확보하면서도 지연 시간 증가는 무시할 수 있는 수준에서 달성되었습니다. 이 연구는 실제 응용 분야에서 추론형 LLM의 추적 가능하고 신뢰할 수 있는 배포를 가능하게 합니다.
Reasoning Large Language Models (RLLMs) excelling in complex tasks present unique challenges for digital watermarking, as existing methods often disrupt logical coherence or incur high computational costs. Token-based watermarking techniques can corrupt the reasoning flow by applying pseudo-random biases, while semantic-aware approaches improve quality but introduce significant latency or require auxiliary models. This paper introduces ReasonMark, a novel watermarking framework specifically designed for reasoning-intensive LLMs. Our approach decouples generation into an undisturbed Thinking Phase and a watermarked Answering Phase. We propose a Criticality Score to identify semantically pivotal tokens from the reasoning trace, which are distilled into a Principal Semantic Vector (PSV). The PSV then guides a semantically-adaptive mechanism that modulates watermark strength based on token-PSV alignment, ensuring robustness without compromising logical integrity. Extensive experiments show ReasonMark surpasses state-of-the-art methods by reducing text Perplexity by 0.35, increasing translation BLEU score by 0.164, and raising mathematical accuracy by 0.67 points. These advancements are achieved alongside a 0.34% higher watermark detection AUC and stronger robustness to attacks, all with a negligible increase in latency. This work enables the traceable and trustworthy deployment of reasoning LLMs in real-world applications.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.