자신과 대화하기: 대규모 언어 모델에서 망각을 극복하는 방법
Talking to Yourself: Defying Forgetting in Large Language Models
대규모 언어 모델(LLM)을 특정 작업에 맞게 미세 조정할 때, 재앙적인 망각(catastrophic forgetting)은 일반적인 지식과 추론 능력을 저하시키는 주요 과제입니다. 본 연구에서는 SA-SFT라는 가벼운 자기 증강(self-augmentation) 방법을 제안합니다. SA-SFT는 LLM이 미세 조정 전에 자체 대화를 생성하고, 생성된 데이터를 추가적인 최적화 또는 학습 일정 변경 없이 작업 데이터와 혼합하는 방식입니다. SA-SFT는 외부 데이터나 추가적인 튜닝 없이도 일관되게 재앙적인 망각을 완화하고, 동시에 해당 작업 영역에서의 성능을 향상시킵니다. 50가지의 평가 시나리오에서, SA-SFT는 원본 모델과 유사한 성능을 유지하며, 40건의 경우에서 가장 우수한 결과를 보여주었고, 레이어 고정(layer freezing)이나 외부 데이터 혼합과 같은 일반적인 기준 모델보다 뛰어난 성능을 보였습니다. 이러한 실험 결과에 따라, 우리는 망각이 스타일 유발 파라미터 드리프트(parameter drift)에서 비롯될 수 있으며, 자체 생성 데이터를 통한 자기 정렬(self-alignment)이 이러한 현상을 상쇄하는 효과적인 방법이라는 이론적 분석을 제시합니다. 전반적으로, 본 연구의 결과는 자기 증강이 재앙적인 망각 없이 강력한 LLM 적응을 위한 간단하고 효과적인 메커니즘을 제공한다는 것을 시사합니다.
Catastrophic forgetting remains a major challenge when fine-tuning large language models (LLMs) on narrow, task-specific data, often degrading their general knowledge and reasoning abilities. We propose SA-SFT, a lightweight self-augmentation routine in which an LLM generates self-dialogues prior to fine-tuning, and the resulting self-authored data are mixed with task data without modifying optimization or training schedules. Despite requiring no external data or additional tuning, SA-SFT consistently mitigates catastrophic forgetting while improving in-domain performance. Across 50 evaluation scenarios, it maintains performance comparable to the original model and achieves the best results in 40 cases, outperforming common baselines such as layer freezing and external data mixing. Guided by these empirical findings, we further present a theoretical analysis suggesting that forgetting can partly stem from style-induced parameter drift, and that self-alignment through self-generated data provides an effective means to counteract this effect. Overall, our results indicate that self-augmentation offers a simple and effective mechanism for robust LLM adaptation without incurring catastrophic forgetting.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.