STaR: 대규모 추론 모델의 언러닝을 위한 민감 궤적 조절
STaR: Sensitive Trajectory Regulation for Unlearning in Large Reasoning Models
대규모 추론 모델(LRM)은 자동화된 다단계 추론 기술을 발전시켰으나, 복잡한 생각의 사슬(CoT) 궤적을 생성하는 능력은 민감한 정보가 추론 과정 전반에 깊이 내재될 수 있어 심각한 프라이버시 위험을 초래한다. 주로 최종 답변 수정에만 집중하는 기존 대규모 언어 모델(LLM)의 언러닝 접근 방식은 중간 단계에 있는 민감한 내용을 제거하지 못해 지속적인 프라이버시 유출과 보안 저하를 야기하므로 LRM에는 불충분하다. 이러한 문제를 해결하기 위해, 우리는 추론 과정 전반에 걸쳐 강력한 프라이버시 보호를 달성하는 무파라미터(parameter-free) 추론 시점 언러닝 프레임워크인 '민감 궤적 조절(STaR)'을 제안한다. 구체적으로, 먼저 의미(semantic) 기반 탐지를 통해 민감한 내용을 식별한다. 그 후, 보안 프롬프트 접두사를 통해 전역적 안전 제약을 주입한다. 다음으로, 전체 추론 사슬에 걸쳐 민감한 내용을 동적으로 차단하기 위해 궤적 인식 억제를 수행한다. 마지막으로, 생성 중에 정확히 일치하거나 환언된(paraphrased) 민감 토큰을 모두 방지하기 위해 토큰 수준의 적응형 필터링을 적용한다. 또한, 기존 평가 프로토콜의 불충분함을 극복하기 위해 두 가지 지표를 도입한다. 다양한 디코딩 전략 전반에 걸친 언러닝의 일관성을 측정하는 MCS(Multi-Decoding Consistency Assessment)와 답변 및 추론 사슬 수준 모두에서 프라이버시 보호를 정량화하는 다중 입도 MIA(Membership Inference Attack) 평가가 그것이다. R-TOFU 벤치마크에 대한 실험 결과, STaR는 최소한의 유틸리티 손실로 포괄적이고 안정적인 언러닝을 달성하여 LRM의 프라이버시 보존 추론을 위한 새로운 표준을 수립함을 입증하였다.
Large Reasoning Models (LRMs) have advanced automated multi-step reasoning, but their ability to generate complex Chain-of-Thought (CoT) trajectories introduces severe privacy risks, as sensitive information may be deeply embedded throughout the reasoning process. Existing Large Language Models (LLMs) unlearning approaches that typically focus on modifying only final answers are insufficient for LRMs, as they fail to remove sensitive content from intermediate steps, leading to persistent privacy leakage and degraded security. To address these challenges, we propose Sensitive Trajectory Regulation (STaR), a parameter-free, inference-time unlearning framework that achieves robust privacy protection throughout the reasoning process. Specifically, we first identify sensitive content via semantic-aware detection. Then, we inject global safety constraints through secure prompt prefix. Next, we perform trajectory-aware suppression to dynamically block sensitive content across the entire reasoning chain. Finally, we apply token-level adaptive filtering to prevent both exact and paraphrased sensitive tokens during generation. Furthermore, to overcome the inadequacies of existing evaluation protocols, we introduce two metrics: Multi-Decoding Consistency Assessment (MCS), which measures the consistency of unlearning across diverse decoding strategies, and Multi-Granularity Membership Inference Attack (MIA) Evaluation, which quantifies privacy protection at both answer and reasoning-chain levels. Experiments on the R-TOFU benchmark demonstrate that STaR achieves comprehensive and stable unlearning with minimal utility loss, setting a new standard for privacy-preserving reasoning in LRMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.