다중 회화 상호작용 환경에서의 LLM(대규모 언어 모델) 학습 제거(Unlearning)의 안정성 종합 평가
A Comprehensive Evaluation of LLM Unlearning Robustness under Multi-Turn Interaction
머신 러닝에서의 학습 제거(unlearning)는 사전 학습된 모델에서 특정 학습 데이터의 영향을 제거하는 기술로, 안전, 개인 정보 보호 및 법적 문제로 인해 대규모 언어 모델(LLM)에서 점점 더 중요해지고 있습니다. 기존 연구에서는 주로 정적인, 단일 회화 환경에서 학습 제거를 평가했지만, 실제 상호작용 환경에서의 안정성은 충분히 연구되지 않았습니다. 본 논문에서는 자기 수정(self-correction) 및 대화 기반 질의응답(dialogue-conditioned querying)과 같은 일반적인 상호작용 패턴을 통해 학습 제거가 상호작용 환경에서도 안정적인지 조사합니다. 연구 결과, 정적 평가에서 잊혀진 것처럼 보이는 지식이 상호작용을 통해 종종 복구될 수 있음을 확인했습니다. 더 강력한 학습 제거는 겉보기에는 안정성을 향상시키지만, 실제로는 지식 삭제보다는 행동의 경직성을 초래하는 경우가 많습니다. 이러한 결과는 정적 평가가 실제 효과를 과대평가할 수 있으며, 상호작용 환경에서 안정적인 망각을 보장하는 것의 중요성을 강조합니다.
Machine unlearning aims to remove the influence of specific training data from pre-trained models without retraining from scratch, and is increasingly important for large language models (LLMs) due to safety, privacy, and legal concerns. Although prior work primarily evaluates unlearning in static, single-turn settings, forgetting robustness under realistic interactive use remains underexplored. In this paper, we study whether unlearning remains stable in interactive environments by examining two common interaction patterns: self-correction and dialogue-conditioned querying. We find that knowledge appearing forgotten in static evaluation can often be recovered through interaction. Although stronger unlearning improves apparent robustness, it often results in behavioral rigidity rather than genuine knowledge erasure. Our findings suggest that static evaluation may overestimate real-world effectiveness and highlight the need for ensuring stable forgetting under interactive settings.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.