2602.07156v1 Feb 06, 2026 cs.LG

MLP의 모방 초기화

Mimetic Initialization of MLPs

Asher Trockman
Asher Trockman
Citations: 1,004
h-index: 11
J. Kolter
J. Kolter
Citations: 40,764
h-index: 74

모방 초기화는 사전 학습된 모델을 좋은 초기화의 사례 연구로 활용하여, 학습된 가중치에서 관찰되는 구조로부터 영감을 얻어 새로운 초기화 기법을 개발합니다. 지금까지 이 방법은 주로 공간 혼합 계층(예: 컨볼루션, 자기 주의, 상태 공간 계층)에 적용되었습니다. 본 연구에서는 이 방법을 채널 혼합 계층, 즉 다층 퍼셉트론(MLP)에 적용하는 첫 번째 시도를 제시합니다. MLP에 대한 매우 간단한 기술인 첫 번째 계층에 0이 아닌 평균값을 부여하는 방법은 CIFAR-10 및 ImageNet-1k와 같은 소규모 시각 작업에서 학습 속도를 향상시킵니다. 이 방법의 효과는 공간 혼합 초기화만큼 크지는 않지만, 추가적인 긍정적인 효과를 위해 함께 사용할 수 있습니다.

Original Abstract

Mimetic initialization uses pretrained models as case studies of good initialization, using observations of structures in trained weights to inspire new, simple initialization techniques. So far, it has been applied only to spatial mixing layers, such convolutional, self-attention, and state space layers. In this work, we present the first attempt to apply the method to channel mixing layers, namely multilayer perceptrons (MLPs). Our extremely simple technique for MLPs -- to give the first layer a nonzero mean -- speeds up training on small-scale vision tasks like CIFAR-10 and ImageNet-1k. Though its effect is much smaller than spatial mixing initializations, it can be used in conjunction with them for an additional positive effect.

0 Citations
0 Influential
30 Altmetric
150.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!