2603.18793v1 Mar 19, 2026 cs.CR

대규모 언어 모델을 위한 기능적 서브스페이스 워터마킹

Functional Subspace Watermarking for Large Language Models

Hongbo Liu
Hongbo Liu
Citations: 35
h-index: 3
Lijie Hu
Lijie Hu
Citations: 24
h-index: 1
Zikang Ding
Zikang Ding
Citations: 4
h-index: 1
Junchi Yao
Junchi Yao
Citations: 79
h-index: 3
Junhao Li
Junhao Li
Citations: 0
h-index: 0
Suling Wu
Suling Wu
Citations: 22
h-index: 3

모델 워터마킹은 대규모 언어 모델(LLM)의 소유권 보호를 위해 내부 표현을 활용합니다. 그러나 이러한 특징들은 파인튜닝, 양자화 또는 지식 증류와 같은 실제 모델 수정 과정에서 필연적으로 복잡한 왜곡을 겪게 되므로, 신뢰성 있는 추출이 매우 어렵습니다. 모델 측면 워터마킹에 대한 광범위한 연구가 진행되었음에도 불구하고, 기존 방법들은 여전히 파라미터 수준의 변화에 대한 충분한 강건성을 제공하지 못합니다. 이러한 격차를 해소하기 위해, 우리는 소유권 신호를 저차원의 기능적 기반에 고정하는 프레임워크인 exttt{ extbf{기능적 서브스페이스 워터마킹 (FSW)}}을 제안합니다. 구체적으로, 우리는 먼저 워터마크 삽입을 위한 안정적인 기능적 서브스페이스를 추출하기 위해 일반화된 고유값 문제를 해결하고, 강건성과 모델 유용성 간의 최적의 균형을 달성하기 위해 적응형 스펙트럴 절단 전략을 도입합니다. 또한, 벡터 일관성 제약을 도입하여 워터마크 삽입이 원래의 의미론적 성능을 저해하지 않도록 보장합니다. 다양한 LLM 아키텍처 및 데이터 세트에 대한 광범위한 실험 결과, 우리 방법은 다양한 모델 공격 하에서 우수한 검출 정확도와 통계적 검증력을 달성하며, 기존의 최첨단(SOTA) 방법보다 뛰어난 강건성을 유지함을 보여줍니다.

Original Abstract

Model watermarking utilizes internal representations to protect the ownership of large language models (LLMs). However, these features inevitably undergo complex distortions during realistic model modifications such as fine-tuning, quantization, or knowledge distillation, making reliable extraction extremely challenging. Despite extensive research on model-side watermarking, existing methods still lack sufficient robustness against parameter-level perturbations. To address this gap, we propose \texttt{\textbf{Functional Subspace Watermarking (FSW)}}, a framework that anchors ownership signals into a low-dimensional functional backbone. Specifically, we first solve a generalized eigenvalue problem to extract a stable functional subspace for watermark injection, while introducing an adaptive spectral truncation strategy to achieve an optimal balance between robustness and model utility. Furthermore, a vector consistency constraint is incorporated to ensure that watermark injection does not compromise the original semantic performance. Extensive experiments across various LLM architectures and datasets demonstrate that our method achieves superior detection accuracy and statistical verifiability under multiple model attacks, maintaining robustness that outperforms existing state-of-the-art (SOTA) methods.

0 Citations
0 Influential
1.5 Altmetric
7.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!