2602.06208v1 Feb 05, 2026 cs.LG

부드러운 활성화 함수를 사용하는 다층 퍼셉트론에서 나타나는 저랭크 학습 동역학

Emergent Low-Rank Training Dynamics in MLPs with Smooth Activations

Alec S. Xu
Alec S. Xu
Citations: 12
h-index: 2
Can Yaras
Can Yaras
Citations: 202
h-index: 7
Matthew Asato
Matthew Asato
Citations: 3
h-index: 1
Qing Qu
Qing Qu
Citations: 154
h-index: 6
Laura Balzano
Laura Balzano
Citations: 124
h-index: 5

최근의 경험적 연구 결과에 따르면, 대규모 딥 신경망의 학습 동역학은 저차원 공간 내에서 발생합니다. 이러한 현상은 저랭크 학습, 압축 및 적응에 대한 새로운 연구에 영감을 주었지만, 비선형 네트워크에서의 이러한 동역학에 대한 이론적 근거는 여전히 부족합니다. 본 논문에서는 경사 하강법(GD)을 사용하여 다층 퍼셉트론(MLP)의 학습 동역학을 분석합니다. 우리는 학습 과정 전반에 걸쳐 가중치 동역학이 불변하는 저차원 공간에 집중되는 것을 보여줍니다. 이론적으로, 우리는 부드러운 비선형 활성화 함수를 사용하는 2층 네트워크에 대한 이러한 불변 공간을 정확하게 규명하여 그 발생 원리에 대한 통찰력을 제공합니다. 실험적으로, 이러한 현상이 우리의 이론적 가정 범위를 넘어 확장되는 것을 확인합니다. 이러한 통찰력을 바탕으로, 우리는 특정 저차원 공간에 초기화된 저랭크 MLP 파라미터화가 다양한 분류 작업에서 완전하게 파라미터화된 모델과 동등한 분류 성능을 보이는 것을 경험적으로 입증합니다.

Original Abstract

Recent empirical evidence has demonstrated that the training dynamics of large-scale deep neural networks occur within low-dimensional subspaces. While this has inspired new research into low-rank training, compression, and adaptation, theoretical justification for these dynamics in nonlinear networks remains limited. %compared to deep linear settings. To address this gap, this paper analyzes the learning dynamics of multi-layer perceptrons (MLPs) under gradient descent (GD). We demonstrate that the weight dynamics concentrate within invariant low-dimensional subspaces throughout training. Theoretically, we precisely characterize these invariant subspaces for two-layer networks with smooth nonlinear activations, providing insight into their emergence. Experimentally, we validate that this phenomenon extends beyond our theoretical assumptions. Leveraging these insights, we empirically show there exists a low-rank MLP parameterization that, when initialized within the appropriate subspaces, matches the classification performance of fully-parameterized counterparts on a variety of classification tasks.

0 Citations
0 Influential
3.5 Altmetric
17.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!