2601.04278v1 Jan 07, 2026 cs.CL

도메인에서 인스턴스까지: LLM 학습 해제를 위한 이중 수준 데이터 합성

From Domains to Instances: Dual-Granularity Data Synthesis for LLM Unlearning

XiaoYu Xu
XiaoYu Xu
Citations: 98
h-index: 3
Minxin Du
Minxin Du
Citations: 200
h-index: 4
Zitong Li
Zitong Li
Citations: 7
h-index: 1
Zi Liang
Zi Liang
Citations: 62
h-index: 4
Zhibiao Guo
Zhibiao Guo
Citations: 0
h-index: 0
Shiyu Zhang
Shiyu Zhang
Citations: 2
h-index: 1
Peizhao Hu
Peizhao Hu
Citations: 0
h-index: 0
Qingqing Ye
Qingqing Ye
Citations: 1,346
h-index: 18
Haibo Hu
Haibo Hu
Citations: 96
h-index: 5

머신 러닝 모델에서 개인 정보, 유해하거나 저작권이 있는 콘텐츠를 제거하는 것은 매우 중요하지만, 현재의 벤치마크는 모델이 실제로 학습하는 '망각 범위'를 정확하게 반영하지 못하는 경우가 많습니다. 본 연구에서는 도메인 수준과 인스턴스 수준의 두 가지 상이한 학습 해제 단위를 공식화하고, 고품질 망각 데이터셋을 합성하는 자동화 프레임워크인 BiForget을 제안합니다. 기존 연구가 외부 생성기를 사용하는 것과 달리, BiForget은 시드 가이드 및 적대적 프롬프팅을 통해 대상 모델 자체를 활용하여 모델의 내부 지식 분포와 일치하는 데이터를 생성합니다. 다양한 벤치마크에서의 실험 결과, BiForget은 관련성, 다양성 및 효율성 측면에서 우수한 균형을 제공합니다. 특히, Harry Potter 도메인에서 BiForget은 관련성을 약 20% 향상시키고 다양성을 약 0.05만큼 향상시키면서, 최첨단 기술(SOTA)에 비해 전체 데이터 크기를 절반으로 줄였습니다. 궁극적으로, BiForget은 더욱 강력한 망각 기능을 제공하고 모델의 유용성을 더 잘 보존하며, LLM 학습 해제 평가를 위한 더욱 엄격한 기반을 제공합니다.

Original Abstract

Although machine unlearning is essential for removing private, harmful, or copyrighted content from LLMs, current benchmarks often fail to faithfully represent the true "forgetting scope" learned by the model. We formalize two distinct unlearning granularities, domain-level and instance-level, and propose BiForget, an automated framework for synthesizing high-quality forget sets. Unlike prior work relying on external generators, BiForget exploits the target model per se to elicit data that matches its internal knowledge distribution through seed-guided and adversarial prompting. Our experiments across diverse benchmarks show that it achieves a superior balance of relevance, diversity, and efficiency. Quantitatively, in the Harry Potter domain, it improves relevance by ${\sim}20$ and diversity by ${\sim}$0.05 while halving the total data size compared to SOTAs. Ultimately, it facilitates more robust forgetting and better utility preservation, providing a more rigorous foundation for evaluating LLM unlearning.

1 Citations
0 Influential
9 Altmetric
46.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!