신경망 밀집체: 다양한 작업 전문 지식이 사전 학습된 가중치 주변에 밀집되어 있다
Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights
사전 학습은 일반적으로 추가적인 반복적인 적응을 위한 시작점으로 사용되는 학습된 파라미터 벡터를 생성합니다. 본 연구에서는 사전 학습의 결과를 파라미터 벡터의 분포로 보고, 이 분포의 범위 내에는 이미 작업별 전문 지식이 포함되어 있다고 봅니다. 작은 모델에서는 이러한 전문 솔루션이 분포 전체의 극히 작은 부분을 차지하며, 이는 경사 하강법과 같은 구조화된 최적화 방법을 통해서만 발견될 수 있습니다. 반면, 크고 잘 학습된 모델에서는 작업 전문 지식의 밀도가 크게 증가하여, 다양한 작업 개선 전문 모델들이 사전 학습된 가중치 주변의 상당 부분을 차지합니다. 이러한 관점에서, 우리는 간단하고 완전히 병렬적인 사후 학습 방법을 탐구합니다. 이 방법은 $N$개의 파라미터 변화를 무작위로 샘플링하고, 상위 $K$개를 선택하여, 다수결 투표를 통해 예측을 앙상블합니다. 이 방법은 단순하지만, PPO, GRPO, ES와 같은 기존의 사후 학습 방법과 경쟁력 있는 성능을 보여주며, 특히 현대적인 대규모 모델에서 효과적입니다.
Pretraining produces a learned parameter vector that is typically treated as a starting point for further iterative adaptation. In this work, we instead view the outcome of pretraining as a distribution over parameter vectors, whose support already contains task-specific experts. We show that in small models such expert solutions occupy a negligible fraction of the volume of this distribution, making their discovery reliant on structured optimization methods such as gradient descent. In contrast, in large, well-pretrained models the density of task-experts increases dramatically, so that diverse, task-improving specialists populate a substantial fraction of the neighborhood around the pretrained weights. Motivated by this perspective, we explore a simple, fully parallel post-training method that samples $N$ parameter perturbations at random, selects the top $K$, and ensembles predictions via majority vote. Despite its simplicity, this approach is competitive with standard post-training methods such as PPO, GRPO, and ES for contemporary large-scale models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.