다양한 활성화 희소성 환경에서의 공동 학습
Joint Training Across Multiple Activation Sparsity Regimes
심층 신경망에서의 일반화는 여전히 부분적으로만 이해되고 있습니다. 생물학적 시스템의 더 강력한 일반화 경향에 영감을 받아, 우리는 견고한 내부 표현이 밀집된 활성화 환경과 희소한 활성화 환경 모두에서 효과적이어야 한다는 가설을 탐구합니다. 이 아이디어를 검증하기 위해, 우리는 숨겨진 활성화에 전역적인 상위 k 제약 조건을 적용하고, 단일 모델을 점진적인 압축과 주기적인 재설정을 통해 여러 활성화 비율로 반복적으로 변경하는 간단한 학습 전략을 도입합니다. 데이터 증강 없이 CIFAR-10 데이터셋과 WRN-28-4 모델을 사용하여, 단일 실행 실험에서 두 가지 적응형 유지 비율 제어 전략이 밀집형 기준 학습보다 우수한 성능을 보였습니다. 이러한 초기 결과는 다양한 활성화 희소성 환경에서의 공동 학습이 개선된 일반화를 위한 간단하고 효과적인 방법을 제공할 수 있음을 시사합니다.
Generalization in deep neural networks remains only partially understood. Inspired by the stronger generalization tendency of biological systems, we explore the hypothesis that robust internal representations should remain effective across both dense and sparse activation regimes. To test this idea, we introduce a simple training strategy that applies global top-k constraints to hidden activations and repeatedly cycles a single model through multiple activation budgets via progressive compression and periodic reset. Using CIFAR-10 without data augmentation and a WRN-28-4 backbone, we find in single-run experiments that two adaptive keep-ratio control strategies both outperform dense baseline training. These preliminary results suggest that joint training across multiple activation sparsity regimes may provide a simple and effective route to improved generalization.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.