2602.13575v1 Feb 14, 2026 cs.CL

Elo-Evolve: 언어 모델 정렬을 위한 공진화 프레임워크

Elo-Evolve: A Co-evolutionary Framework for Language Model Alignment

Yang Song
Yang Song
Citations: 2,628
h-index: 7
Jing Zhao
Jing Zhao
Citations: 95
h-index: 6
Ting Zhen
Ting Zhen
Citations: 0
h-index: 0
Junwei Bao
Junwei Bao
Citations: 76
h-index: 4
Hongfei Jiang
Hongfei Jiang
Citations: 39
h-index: 3

현재 대규모 언어 모델(LLM)의 정렬 방법은 방대한 양의 인간 선호도 데이터를 정적이고 절대적인 보상 함수로 압축하는 데 의존하며, 이는 데이터 부족, 노이즈 민감성 및 학습 불안정성을 초래합니다. 본 논문에서는 Elo-Evolve라는 공진화 프레임워크를 소개합니다. Elo-Evolve는 정렬을 적응형 상대 모델 풀 내의 동적 다중 에이전트 경쟁으로 재정의합니다. 본 연구는 다음과 같은 두 가지 핵심 혁신을 제시합니다. (1) Bradley-Terry 모델에 대한 의존성을 제거하고, 쌍대 경쟁에서의 이진 승/패 결과를 직접 학습하여 모델을 개선하고, (2) Elo 알고리즘을 통해 조절된 상대 모델 선택을 구현하여 온도 조절 샘플링을 통한 자동 교육 과정을 제공합니다. 본 연구는 PAC 학습 이론에 기반하여 쌍대 비교가 우수한 샘플 복잡성을 달성한다는 것을 입증하고, 절대 점수 방식에 비해 4.5배 더 노이즈가 적다는 것을 경험적으로 검증했습니다. 실험적으로, 본 연구는 Qwen2.5-7B 모델을 본 프레임워크를 사용하여 Qwen2.5-14B, Qwen2.5-32B, 및 Qwen3-8B 모델을 상대 모델로 활용하여 학습했습니다. 실험 결과는 Alpaca Eval 2.0 및 MT-Bench 벤치마크에서 점수 기반 방법 < 정적 쌍대 학습 < Elo-Evolve라는 명확한 성능 계층 구조를 보여주며, 쌍대 비교 및 동적 상대 모델 선택이 LLM 정렬에 미치는 점진적인 이점을 검증합니다.

Original Abstract

Current alignment methods for Large Language Models (LLMs) rely on compressing vast amounts of human preference data into static, absolute reward functions, leading to data scarcity, noise sensitivity, and training instability. We introduce Elo-Evolve, a co-evolutionary framework that redefines alignment as dynamic multi-agent competition within an adaptive opponent pool. Our approach makes two key innovations: (1) eliminating Bradley-Terry model dependencies by learning directly from binary win/loss outcomes in pairwise competitions, and (2) implementing Elo-orchestrated opponent selection that provides automatic curriculum learning through temperature-controlled sampling. We ground our approach in PAC learning theory, demonstrating that pairwise comparison achieves superior sample complexity and empirically validate a 4.5x noise reduction compared to absolute scoring approaches. Experimentally, we train a Qwen2.5-7B model using our framework with opponents including Qwen2.5-14B, Qwen2.5-32B, and Qwen3-8B models. Results demonstrate a clear performance hierarchy: point-based methods < static pairwise training < Elo-Evolve across Alpaca Eval 2.0 and MT-Bench, validating the progressive benefits of pairwise comparison and dynamic opponent selection for LLM alignment.

0 Citations
0 Influential
3.5 Altmetric
17.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!