지속적 학습을 위한 피셔 직교 투영 자연 경사 하강법
Fisher-Orthogonal Projected Natural Gradient Descent for Continual Learning
지속적 학습은 신경망이 순차적인 작업에서 새로운 지식을 습득하도록 하는 것을 목표로 합니다. 그러나 이러한 환경에서 가장 큰 과제는 새로운 작업을 학습하면서 이전에 학습된 작업을 완전히 잊어버리지 않도록 하는 것입니다. 본 논문에서는 Fisher-Orthogonal Projected Natural Gradient Descent (FOPNG) 최적화기를 제안합니다. FOPNG는 파라미터 업데이트에 Fisher 직교 제약 조건을 적용하여 새로운 작업을 학습하는 동시에 이전 작업의 성능을 유지합니다. 기존 방법들이 유클리드 파라미터 공간에서 작동하는 것과는 달리, FOPNG는 이전 작업의 기울기에 대한 Fisher 직교 여분 공간으로 기울기를 투영합니다. 이러한 접근 방식은 정보 기하학적 프레임워크 내에서 자연 경사 하강법과 직교 경사 방법론을 통합합니다. 우리는 투영된 업데이트를 유도하는 이론적 분석을 제공하고, 효율적이고 실용적인 구현을 위해 대각 Fisher 행렬을 사용하며, Permuted-MNIST, Split-MNIST, Rotated-MNIST, Split-CIFAR10, 및 Split-CIFAR100과 같은 표준 지속적 학습 벤치마크에서 뛰어난 결과를 보여줍니다. 저희의 코드는 https://github.com/ishirgarg/FOPNG 에서 확인할 수 있습니다.
Continual learning aims to enable neural networks to acquire new knowledge on sequential tasks. However, the key challenge in such settings is to learn new tasks without catastrophically forgetting previously learned tasks. We propose the Fisher-Orthogonal Projected Natural Gradient Descent (FOPNG) optimizer, which enforces Fisher-orthogonal constraints on parameter updates to preserve old task performance while learning new tasks. Unlike existing methods that operate in Euclidean parameter space, FOPNG projects gradients onto the Fisher-orthogonal complement of previous task gradients. This approach unifies natural gradient descent with orthogonal gradient methods within an information-geometric framework. We provide theoretical analysis deriving the projected update, describe efficient and practical implementations using the diagonal Fisher, and demonstrate strong results on standard continual learning benchmarks such as Permuted-MNIST, Split-MNIST, Rotated-MNIST, Split-CIFAR10, and Split-CIFAR100. Our code is available at https://github.com/ishirgarg/FOPNG.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.