대규모 추론 모델을 위한 선택적 망각
Selective Forgetting for Large Reasoning Models
대규모 추론 모델(LRM)은 최종 답변을 생성하기 전에 구조화된 사고 과정(CoT)을 생성하므로, 중간 추론 단계에서 지식 유출에 특히 취약합니다. 그러나, 저작권 정보나 개인 정보 등 민감한 정보가 학습 데이터에 포함되어 있어 윤리적, 법적 문제가 발생할 수 있습니다. 이러한 문제를 해결하기 위해, 선택적 망각(또는 기계적 삭제) 기술이 LRM에 대한 잠재적인 해결책으로 제시되었습니다. 그러나, 기존의 망각 방법은 주로 최종 답변을 대상으로 하며, 망각 이후 LRM의 전체적인 추론 능력을 저하시킬 수 있습니다. 또한, CoT 전체에 직접적으로 망각을 적용하면 일반적인 추론 능력이 저하될 수 있습니다. LRM 망각의 핵심 과제는 특정 지식을 정확하게 망각하는 동시에 일반적인 추론 능력을 유지하는 것입니다. 본 논문에서는 이러한 격차를 해소하기 위해, 민감한 추론 구성 요소를 선택적으로 제거하면서 일반적인 추론 능력을 유지하는 새로운 LRM 망각 프레임워크를 제안합니다. 우리의 접근 방식은 여러 LLM과 검색 증강 생성(RAG)을 활용하여 CoT 추적을 분석하고, 망각과 관련된 부분을 식별하여 논리적 구조를 유지하는 안전한 대체 요소로 대체합니다. 또한, LRM을 위한 새로운 특징 대체 망각 손실 함수를 도입하여, 망각된 콘텐츠의 생성 확률을 동시에 억제하고 구조적으로 유효한 대체 요소를 강화합니다. 합성 데이터 및 의료 데이터 세트에 대한 광범위한 실험을 통해 제안된 방법의 원하는 특성을 검증했습니다.
Large Reasoning Models (LRMs) generate structured chains of thought (CoTs) before producing final answers, making them especially vulnerable to knowledge leakage through intermediate reasoning steps. Yet, the memorization of sensitive information in the training data such as copyrighted and private content has led to ethical and legal concerns. To address these issues, selective forgetting (also known as machine unlearning) has emerged as a potential remedy for LRMs. However, existing unlearning methods primarily target final answers and may degrade the overall reasoning ability of LRMs after forgetting. Additionally, directly applying unlearning on the entire CoTs could degrade the general reasoning capabilities. The key challenge for LRM unlearning lies in achieving precise unlearning of targeted knowledge while preserving the integrity of general reasoning capabilities. To bridge this gap, we in this paper propose a novel LRM unlearning framework that selectively removes sensitive reasoning components while preserving general reasoning capabilities. Our approach leverages multiple LLMs with retrieval-augmented generation (RAG) to analyze CoT traces, identify forget-relevant segments, and replace them with benign placeholders that maintain logical structure. We also introduce a new feature replacement unlearning loss for LRMs, which can simultaneously suppress the probability of generating forgotten content while reinforcing structurally valid replacements. Extensive experiments on both synthetic and medical datasets verify the desired properties of our proposed method.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.