2601.08189v2 Jan 13, 2026 cs.CR

ForgetMark: 언어 모델에서의 목표 지향적 학습 회피를 통한 은밀한 지문 삽입

ForgetMark: Stealthy Fingerprint Embedding via Targeted Unlearning in Language Models

Zhebo Wang
Zhebo Wang
Citations: 80
h-index: 4
Zhenhua Xu
Zhenhua Xu
Zhejiang University
Citations: 155
h-index: 9
Meng Han
Meng Han
Citations: 193
h-index: 8
Hao Zhang
Hao Zhang
Citations: 12,238
h-index: 51
Qichen Liu
Qichen Liu
Citations: 29
h-index: 2
Haitao Xu
Haitao Xu
Citations: 43
h-index: 3
Wenpeng Xing
Wenpeng Xing
Citations: 148
h-index: 7

기존의 침투형(백도어) 지문은 높은 퍼플렉시티를 가진 트리거로 인해 쉽게 필터링될 수 있으며, 휴리스틱 감지기에 의해 노출되는 고정된 응답 패턴을 가지며, 정상 입력에 대한 의도치 않은 활성화를 유발할 수 있습니다. 본 논문에서는 목표 지향적 학습 회피를 통해 출처를 암호화하는 은밀한 지문화 프레임워크인 extsc{ForgetMark}를 소개합니다. extsc{ForgetMark}는 보조 모델과 예측-엔트로피 순위를 사용하여 작고 사람이 읽을 수 있는 키-값 세트를 구축한 다음, 경량 LoRA 어댑터를 학습시켜 원래 값을 해당 키에 대해 억제하면서 일반적인 기능을 유지합니다. 소유권은 블랙/그레이 박스 접근 하에서 가능성과 의미적 증거를 집계하여 지문 성공률로 검증됩니다. extsc{ForgetMark}는 고정된 트리거-응답 패턴이 아닌 확률적 망각 흔적에 의존하여 높은 퍼플렉시티 트리거를 피하고, 감지 가능성을 줄이며, 오탐을 줄입니다. 다양한 아키텍처 및 환경에서, extsc{ForgetMark}는 지문이 삽입된 모델에 대해 100%의 소유권 검증 정확도를 달성하면서 표준 성능을 유지하고, 백도어 기반 모델보다 은밀성과 모델 병합에 대한 강건성 측면에서 우수하며, 중간 정도의 점진적인 미세 조정 하에서도 효과적입니다. 저희의 코드와 데이터는 다음 링크에서 확인할 수 있습니다: [https://github.com/Xuzhenhua55/ForgetMark](https://github.com/Xuzhenhua55/ForgetMark)

Original Abstract

Existing invasive (backdoor) fingerprints suffer from high-perplexity triggers that are easily filtered, fixed response patterns exposed by heuristic detectors, and spurious activations on benign inputs. We introduce \textsc{ForgetMark}, a stealthy fingerprinting framework that encodes provenance via targeted unlearning. It builds a compact, human-readable key--value set with an assistant model and predictive-entropy ranking, then trains lightweight LoRA adapters to suppress the original values on their keys while preserving general capabilities. Ownership is verified under black/gray-box access by aggregating likelihood and semantic evidence into a fingerprint success rate. By relying on probabilistic forgetting traces rather than fixed trigger--response patterns, \textsc{ForgetMark} avoids high-perplexity triggers, reduces detectability, and lowers false triggers. Across diverse architectures and settings, it achieves 100\% ownership verification on fingerprinted models while maintaining standard performance, surpasses backdoor baselines in stealthiness and robustness to model merging, and remains effective under moderate incremental fine-tuning. Our code and data are available at \href{https://github.com/Xuzhenhua55/ForgetMark}{https://github.com/Xuzhenhua55/ForgetMark}.

2 Citations
0 Influential
52.431471805599 Altmetric
264.2 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!