대규모 언어 모델의 행동 지문: 거부 벡터를 활용한 출처 추적
A Behavioral Fingerprint for Large Language Models: Provenance Tracking via Refusal Vectors
대규모 언어 모델(LLM)의 지적 재산 보호는 무단으로 파생된 모델의 확산으로 인해 매우 중요한 과제입니다. 본 연구에서는 안전 정렬 과정에서 발생하는 행동 패턴을 활용하는 새로운 지문 시스템을 소개하며, LLM의 출처 추적을 위해 거부 벡터라는 개념을 적용합니다. 이 벡터는 모델이 유해한 프롬프트와 무해한 프롬프트를 처리할 때 내부 표현에서 나타나는 방향성 패턴으로부터 추출되며, 강력한 행동 지문 역할을 합니다. 본 연구의 핵심 기여는 이러한 개념을 기반으로 지문 시스템을 개발하고, 지적 재산 보호에 대한 효과성을 광범위하게 검증하는 것입니다. 실험 결과, 이러한 행동 지문은 미세 조정, 병합, 양자화와 같은 일반적인 수정에 대해 매우 강력한 것으로 나타났습니다. 또한, 실험 결과는 지문이 각 모델 패밀리에 고유하며, 독립적으로 학습된 모델 간에는 낮은 코사인 유사성을 갖는다는 것을 보여줍니다. 76개의 파생 모델에 대한 대규모 식별 작업에서, 본 방법은 100%의 정확도로 올바른 기본 모델 패밀리를 식별했습니다. 또한, 본 연구는 정렬을 훼손하는 공격에 대한 지문의 동작을 분석하여, 성능이 크게 저하되더라도 감지 가능한 흔적이 남아 있음을 확인했습니다. 마지막으로, 본 연구에서는 로컬리티 민감 해싱 및 영지식 증명을 사용하여 이 개인 정보를 보호하는 지문을 공개적으로 검증 가능한, 개인 정보 보호 기능을 갖춘 형태로 변환하는 이론적 프레임워크를 제안합니다.
Protecting the intellectual property of large language models (LLMs) is a critical challenge due to the proliferation of unauthorized derivative models. We introduce a novel fingerprinting framework that leverages the behavioral patterns induced by safety alignment, applying the concept of refusal vectors for LLM provenance tracking. These vectors, extracted from directional patterns in a model's internal representations when processing harmful versus harmless prompts, serve as robust behavioral fingerprints. Our contribution lies in developing a fingerprinting system around this concept and conducting extensive validation of its effectiveness for IP protection. We demonstrate that these behavioral fingerprints are highly robust against common modifications, including finetunes, merges, and quantization. Our experiments show that the fingerprint is unique to each model family, with low cosine similarity between independently trained models. In a large-scale identification task across 76 offspring models, our method achieves 100\% accuracy in identifying the correct base model family. Furthermore, we analyze the fingerprint's behavior under alignment-breaking attacks, finding that while performance degrades significantly, detectable traces remain. Finally, we propose a theoretical framework to transform this private fingerprint into a publicly verifiable, privacy-preserving artifact using locality-sensitive hashing and zero-knowledge proofs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.