작업-능력 공동 진화를 통한 새로운 LLM 전문가 발굴
Discovering Novel LLM Experts via Task-Capability Coevolution
최첨단 모델 개발자들은 모델이 지속적으로 발전하여 다양한 능력을 갖추도록 훈련하는 것을 목표로 합니다. 현재의 사전 훈련 및 사후 훈련 패러다임은 새로운 능력을 확장하기 위해 매번 정적인 데이터셋 또는 보상 함수를 사용하여 수동으로 훈련을 시작해야 하는 제약을 가지고 있습니다. 이러한 한계를 극복하기 위해, 본 연구는 개방형 시스템(모델과 작업의 공동 진화를 통해)이 단일 훈련 과정에서 점점 더 새롭고 혁신적인 기술을 가진 모델을 발견할 수 있다는 아이디어를 탐구합니다. 우리는 이러한 아이디어를 바탕으로, 대규모 언어 모델(LLM) 발굴을 위한 공동 진화 프레임워크인 'Assessment Coevolving with Diverse Capabilities (AC/DC)'를 소개합니다. AC/DC는 모델 병합을 통해 LLM을 진화시키고, 합성 데이터 생성으로 자연어 작업을 진화시킵니다. AC/DC는 더 큰 GPU 메모리를 사용하는 것보다 더 뛰어난 성능을 보이는 LLM 아카이브를 구축합니다. 특히, AC/DC에서 개발된 LLM들은 명시적인 벤치마크 최적화 없이도 다른 큐레이션 모델 또는 기준 모델보다 더 넓은 범위의 전문성을 제공합니다. 또한, AC/DC는 시간이 지남에 따라 성능을 개선하고, 작업과 모델에 대한 지속적인 혁신을 가져오며, 멀티 에이전트 방식의 최적 N개 선택 성능을 향상시킵니다. 본 연구의 결과는 공동 진화가 기본 LLM에서 더 광범위한 능력 세트를 발견하는 데 잠재력을 가지고 있음을 보여줍니다. 전반적으로, AC/DC는 기존 모델을 더 강력한 모델로 발전시키는 기반으로 활용하여 모델 기능의 다양성을 지속적으로 개선하는 새로운 LLM 개발 패러다임에 한 걸음 더 다가갑니다.
Frontier model developers aim to train models continually to possess emergent, diverse capabilities. To extend capabilities, the current pre-training and post-training paradigm requires manually starting training runs with static datasets or reward functions every time. Addressing this limitation, our work pursues the insight that open-endedness (via the coevolution of models and tasks) can discover models with increasingly novel skills in a single run. We introduce a new model development framework that extends coevolution to large language model (LLM) discovery, open-ended \textit{Assessment Coevolving with Diverse Capabilities} (AC/DC). AC/DC evolves both LLMs via model merging and natural language tasks via synthetic data generation. AC/DC discovers growing archives of LLMs that surpass the capabilities of larger LLMs while taking up less GPU memory. In particular, our LLM populations achieve a broader Coverage of expertise than other curated models or baselines on downstream benchmarks, without \textit{any} explicit benchmark optimization. Furthermore, AC/DC improves Coverage over time, continually innovates on tasks and models, and improves performance in multi-agent best-of-N selection. Our findings highlight the potential of coevolution as a means of discovering broader sets of capabilities from base LLMs. Overall, AC/DC brings us one step closer to a profoundly new paradigm of LLM development, where continual improvements to the diversity of model capabilities can be accelerated by leveraging existing models as stepping stones to increasingly powerful models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.