2603.12228v1 Mar 12, 2026 cs.LG

신경망 밀집체: 다양한 작업 전문 지식이 사전 학습된 가중치 주변에 밀집되어 있다

Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

Yulu Gan
Yulu Gan
Peking University
Citations: 377
h-index: 8
Phillip Isola
Phillip Isola
Citations: 479
h-index: 6

사전 학습은 일반적으로 추가적인 반복적인 적응을 위한 시작점으로 사용되는 학습된 파라미터 벡터를 생성합니다. 본 연구에서는 사전 학습의 결과를 파라미터 벡터의 분포로 보고, 이 분포의 범위 내에는 이미 작업별 전문 지식이 포함되어 있다고 봅니다. 작은 모델에서는 이러한 전문 솔루션이 분포 전체의 극히 작은 부분을 차지하며, 이는 경사 하강법과 같은 구조화된 최적화 방법을 통해서만 발견될 수 있습니다. 반면, 크고 잘 학습된 모델에서는 작업 전문 지식의 밀도가 크게 증가하여, 다양한 작업 개선 전문 모델들이 사전 학습된 가중치 주변의 상당 부분을 차지합니다. 이러한 관점에서, 우리는 간단하고 완전히 병렬적인 사후 학습 방법을 탐구합니다. 이 방법은 $N$개의 파라미터 변화를 무작위로 샘플링하고, 상위 $K$개를 선택하여, 다수결 투표를 통해 예측을 앙상블합니다. 이 방법은 단순하지만, PPO, GRPO, ES와 같은 기존의 사후 학습 방법과 경쟁력 있는 성능을 보여주며, 특히 현대적인 대규모 모델에서 효과적입니다.

Original Abstract

Pretraining produces a learned parameter vector that is typically treated as a starting point for further iterative adaptation. In this work, we instead view the outcome of pretraining as a distribution over parameter vectors, whose support already contains task-specific experts. We show that in small models such expert solutions occupy a negligible fraction of the volume of this distribution, making their discovery reliant on structured optimization methods such as gradient descent. In contrast, in large, well-pretrained models the density of task-experts increases dramatically, so that diverse, task-improving specialists populate a substantial fraction of the neighborhood around the pretrained weights. Motivated by this perspective, we explore a simple, fully parallel post-training method that samples $N$ parameter perturbations at random, selects the top $K$, and ensembles predictions via majority vote. Despite its simplicity, this approach is competitive with standard post-training methods such as PPO, GRPO, and ES for contemporary large-scale models.

8 Citations
2 Influential
4 Altmetric
32.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!