일반화 가능한 활성화 함수 탐색
Mining Generalizable Activation Functions
활성화 함수의 선택은 최적화를 개선하면서 표현력을 유지하는 것을 목표로 하는 활발한 연구 분야입니다. 또한, 활성화 함수는 아키텍처의 잠재적인 유도 편향을 크게 변화시켜 그 비선형 동작을 제어합니다. 본 논문에서는 이전 연구와 마찬가지로, 진화적 탐색이 새로운 활성화 함수를 찾는 데 유용한 프레임워크를 제공한다고 주장합니다. 또한, 우리는 두 가지 새로운 관찰 결과를 제시합니다. 첫째, AlphaEvolve와 같이 최첨단 LLM을 변이 연산자로 사용하는 현대적인 파이프라인은 훨씬 더 넓고 유연한 탐색 공간을 가능하게 합니다. 예를 들어, 특정 FLOP(Floating Point Operations) 예산 내에서 가능한 모든 Python 함수를 탐색할 수 있으므로, 수동으로 구성된 탐색 공간이 필요하지 않습니다. 또한, 이러한 파이프라인은 일반적인 지식을 표현하는 능력으로 인해 의미 있는 활성화 함수를 선호하는 경향이 있어, 탐색 공간을 보다 효율적으로 탐색할 수 있습니다. 둘째, 이 프레임워크를 통해 성능 향상뿐만 아니라 특정 유도 편향을 포함하는 활성화 함수를 목표로 할 수 있습니다. 이는 데이터의 고유한 구조를 존중하는 정도를 나타내며, 분포 변화에 독립적인 방식으로, 데이터 분포 외부 데이터의 성능을 적합도 함수로 사용하여 수행할 수 있습니다. 우리는 이 제안에 대한 실증적인 탐구를 수행하고, 상대적으로 작은 규모의 합성 데이터 세트만으로도 AlphaEvolve가 의미 있는 활성화 함수를 발견할 수 있음을 보여줍니다.
The choice of activation function is an active area of research, with different proposals aimed at improving optimization, while maintaining expressivity. Additionally, the activation function can significantly alter the implicit inductive bias of the architecture, controlling its non-linear behavior. In this paper, in line with previous work, we argue that evolutionary search provides a useful framework for finding new activation functions, while we also make two novel observations. The first is that modern pipelines, such as AlphaEvolve, which relies on frontier LLMs as a mutator operator, allows for a much wider and flexible search space; e.g., over all possible python functions within a certain FLOP budget, eliminating the need for manually constructed search spaces. In addition, these pipelines will be biased towards meaningful activation functions, given their ability to represent common knowledge, leading to a potentially more efficient search of the space. The second observation is that, through this framework, one can target not only performance improvements but also activation functions that encode particular inductive biases. This can be done by using performance on out-of-distribution data as a fitness function, reflecting the degree to which the architecture respects the inherent structure in the data in a manner independent of distribution shifts. We carry an empirical exploration of this proposal and show that relatively small scale synthetic datasets can be sufficient for AlphaEvolve to discover meaningful activations.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.