2604.23238v1 Apr 25, 2026 cs.CR

추적 보호: 원칙 기반의 블랙박스 접근 방식, 지식 증류 공격에 대한 방어

Protecting the Trace: A Principled Black-Box Approach Against Distillation Attacks

L. Varshney
L. Varshney
Citations: 0
h-index: 0
Moulik Choraria
Moulik Choraria
Citations: 78
h-index: 4
Max Hartman
Max Hartman
Citations: 3
h-index: 1
V. Jayaraman
V. Jayaraman
Citations: 1
h-index: 1

최첨단 모델은 극단적인 계산 비용을 들여 학습 가능한 한계를 확장하지만, 샘플링 기반 추론 과정을 통한 지식 증류는 폐쇄형 최첨단 모델을 적대적인 제3자에게 노출시켜, 이들이 보안 장치를 우회하고 모델의 기능을 부당하게 활용할 수 있게 하여 안전, 보안 및 지적 재산권 침해 문제를 야기합니다. 이러한 문제를 해결하기 위해, 지식 증류를 방어하는 방법 개발에 대한 관심이 높아지고 있으며, 이는 교사 모델의 성능을 유지하면서 추론 과정을 조작하여 학습하는 학생 모델의 능력을 저해하는 것을 목표로 합니다. 그러나 현재 기술들은 이론적 근거가 부족하며, 그래디언트 기반 공격을 위해서는 과도한 미세 조정이 필요하거나 학생 모델의 프록시 접근 권한이 요구되는 경우가 많고, 종종 교사 모델의 성능 저하를 초래합니다. 본 연구에서는 지식 증류 방어를 스태클버그 게임으로 이론적으로 정의하여, 지금까지 경험적으로 접근되어 왔던 문제를 해결하고자 합니다. 제안된 모델링을 통해 도출된 설계 목표에 따라, 교사 모델의 추론에 중요한 문장을 효과적으로 조작하는 효율적인 후처리 블랙박스 방법인 TraceGuard를 제안합니다. 본 연구는 모델의 통찰력을 안전하게 공유할 수 있는 확장 가능한 솔루션을 제공하며, 추론 능력의 발전이 지적 재산권 침해나 인공지능 안전 정렬의 손실을 초래하지 않도록 보장합니다.

Original Abstract

Frontier models push the boundaries of what is learnable at extreme computational costs, yet distillation via sampling reasoning traces exposes closed-source frontier models to adversarial third parties who can bypass their guardrails and misappropriate their capabilities, raising safety, security, and intellectual privacy concerns. To address this, there is growing interest in building antidistillation methods, which aim to poison reasoning traces to hinder downstream student model learning while maintaining teacher performance. However, current techniques lack theoretical grounding, requiring either heavy fine-tuning or access to student model proxies for gradient based attacks, and often lead to a significant teacher performance degradation. In this work, we present a theoretical formulation of antidistillation as a Stackelberg game, grounding a problem that has so far largely been approached heuristically. Guided by the desired design properties our formulation reveals, we propose \texttt{TraceGuard}, an efficient, post-generation black-box method to poison sentences with high importance for teacher reasoning. Our work offers a scalable solution to share model insights safely, ensuring that the advancement of reasoning capabilities does not come at the cost of intellectual privacy or AI safety alignment.

0 Citations
0 Influential
2 Altmetric
10.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!