DNF: 이중 계층 중첩 지문 기술 - 대규모 언어 모델 지적 재산권 보호
DNF: Dual-Layer Nested Fingerprinting for Large Language Model Intellectual Property Protection
대규모 언어 모델의 급속한 발전은 블랙박스 형태로 배포될 때 지적 재산권 보호에 대한 심각한 우려를 야기합니다. 기존의 백도어 기반 지문 기술은 희귀 토큰에 의존하여 필터링에 취약한 높은 불확실성을 가진 입력을 생성하거나, 누출 및 사후 적응에 취약한 고정된 트리거-응답 매핑을 사용합니다. 본 연구에서는 도메인별 스타일 지표와 암시적 의미 트리거를 결합하여 계층적 백도어를 내장하는 블랙박스 방식인 extsc{이중 계층 중첩 지문 기술} (DNF)을 제안합니다. Mistral-7B, LLaMA-3-8B-Instruct, 그리고 Falcon3-7B-Instruct 모델에서 DNF는 완벽한 지문 활성화를 달성하면서도 다운스트림 활용성을 유지합니다. 기존 방법과 비교하여, DNF는 낮은 불확실성을 가진 트리거를 사용하며, 지문 탐지 공격에 탐지되지 않고, 점진적인 미세 조정 및 모델 병합에 상대적으로 강건합니다. 이러한 결과는 DNF를 LLM 소유권 확인 및 지적 재산권 보호를 위한 실용적이고, 은밀하며, 회복탄력적인 솔루션으로 자리매김하게 합니다.
The rapid growth of large language models raises pressing concerns about intellectual property protection under black-box deployment. Existing backdoor-based fingerprints either rely on rare tokens -- leading to high-perplexity inputs susceptible to filtering -- or use fixed trigger-response mappings that are brittle to leakage and post-hoc adaptation. We propose \textsc{Dual-Layer Nested Fingerprinting} (DNF), a black-box method that embeds a hierarchical backdoor by coupling domain-specific stylistic cues with implicit semantic triggers. Across Mistral-7B, LLaMA-3-8B-Instruct, and Falcon3-7B-Instruct, DNF achieves perfect fingerprint activation while preserving downstream utility. Compared with existing methods, it uses lower-perplexity triggers, remains undetectable under fingerprint detection attacks, and is relatively robust to incremental fine-tuning and model merging. These results position DNF as a practical, stealthy, and resilient solution for LLM ownership verification and intellectual property protection.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.