훈련 후 망각 현상에 대한 정량적 분석
A Quantitative Characterization of Forgetting in Post-Training
생성 모델의 지속적인 훈련 후 학습은 널리 사용되지만, 언제, 왜 망각이 발생하는지에 대한 체계적인 이해는 여전히 부족합니다. 본 연구에서는 Chen et al. (2025) (arXiv:2510.18874)이 제안한 두 가지 모드 혼합 추상화 모델을 기반으로 이론적 결과를 도출하고, 망각을 두 가지 형태로 공식화했습니다. (i) '질량 망각': 이전 데이터셋의 혼합 가중치가 0으로 붕괴되는 경우, (ii) '이전 구성 요소의 드리프트': 이미 정확한 이전 구성 요소가 훈련 과정에서 이동하는 경우입니다. 동일 공분산을 갖는 가우시안 모드의 경우, 새로운 데이터 분포에서 훈련된 순방향 KL 목표 함수는 이전 가중치를 0으로 만들고, 역방향 KL 목표 함수는 실제 목표에 수렴하여 질량 망각을 방지하며, Bhattacharyya 계수로 제어되는 중첩-게이팅된 오분류 확률을 통해 이전 평균을만 수정합니다. 이러한 수정은 모드 간 분리에 따라 지수적으로 감소하며, 국지적으로 잘 조건화된 기하학적 구조를 통해 지수적으로 수렴합니다. 또한, 본 연구에서는 리플레이(replay)가 이러한 목표 함수와 어떻게 상호 작용하는지 정량화했습니다. 순방향 KL의 경우, 리플레이는 최적값을 변경하기 위해 훈련 분포를 수정해야 하며, 역방향 KL의 경우, 리플레이는 전체 목표를 변경하지 않지만, 제한된 중요도 가중치를 통해 작은 배치 크기에서도 이전 데이터셋이 소실되는 것을 방지합니다. 마지막으로, 최근 제안된 세 가지 근사 온-폴리시 훈련 후 학습 방법인 SDFT (arxiv:2601.19897), TTT-Discover (arxiv:2601.16175) 및 OAPL (arxiv:2602.19362)을 동일한 관점에서 분석하고, 각 방법이 이전 데이터를 얼마나 유지하고 중첩-제어된 드리프트를 나타내는 구체적인 조건을 도출했습니다. 전반적으로, 본 연구의 결과는 망각 현상이 발산 방향, 기하학적 중첩, 샘플링 방식, 그리고 훈련 과정에서의 과거 행동 가시성 간의 상호 작용을 통해 정확하게 정량화될 수 있음을 보여줍니다.
Continual post-training of generative models is widely used, yet a principled understanding of when and why forgetting occurs remains limited. We develop theoretical results under a two-mode mixture abstraction (representing old and new tasks), proposed by Chen et al. (2025) (arXiv:2510.18874), and formalize forgetting in two forms: (i) mass forgetting, where the old mixture weight collapses to zero, and (ii) old-component drift, where an already-correct old component shifts during training. For equal-covariance Gaussian modes, we prove that forward-KL objectives trained on data from the new distribution drive the old weight to zero, while reverse-KL objectives converge to the true target (thereby avoiding mass forgetting) and perturb the old mean only through overlap-gated misassignment probabilities controlled by the Bhattacharyya coefficient, yielding drift that decays exponentially with mode separation and a locally well-conditioned geometry with exponential convergence. We further quantify how replay interacts with these objectives. For forward-KL, replay must modify the training distribution to change the population optimum; for reverse-KL, replay leaves the population objective unchanged but prevents finite-batch old-mode starvation through bounded importance weighting. Finally, we analyze three recently proposed near-on-policy post-training methods, SDFT (arxiv:2601.19897), TTT-Discover (arxiv:2601.16175), and OAPL (arxiv:2602.19362), via the same lens and derive explicit conditions under which each retains old mass and exhibits overlap-controlled drift. Overall, our results show that forgetting can by precisely quantified based on the interaction between divergence direction, geometric behavioral overlap, sampling regime, and the visibility of past behavior during training.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.