점근적 보편적 정렬: 테스트 시간 스케일링을 통한 새로운 정렬 프레임워크
Asymptotic Universal Alignment: A New Alignment Framework via Test-Time Scaling
대규모 언어 모델(LLM)을 다양한 사용자들의 이질적이고 잠재적으로 상충되는 선호도에 맞춰 서비스하는 것은 개인화되고 신뢰할 수 있는 AI를 구축하는 데 있어 핵심적인 과제입니다. 본 연구에서는 테스트 시간 스케일링을 통해 이상적인 보편적 정렬의 개념을 공식화합니다. 각 프롬프트에 대해 모델은 $k≥ 1$개의 후보 응답을 생성하고, 사용자는 자신이 선호하는 응답을 선택합니다. 우리는 $(k,f(k))$-강건성 정렬을 소개하며, 이는 $k$개의 출력을 가진 모델이 다른 단일 출력 모델에 대해 $f(k)$의 승률을 가져야 함을 의미합니다. 또한, 점근적 보편적 정렬(U-alignment)은 $k o∞$일 때 $f(k) o 1$이 되도록 요구합니다. 우리의 주요 결과는 최적의 수렴 속도를 제시합니다. 즉, $k$개의 샘플을 사용하는 정책들이 U-alignment를 $rac{k}{k+1}$의 속도로 달성할 수 있으며, 일반적으로 어떤 방법도 더 빠른 속도를 달성할 수 없습니다. 본 연구에서는 Nash learning from human feedback (NLHF)을 포함한 인기 있는 사후 훈련 방법들이 테스트 시간 스케일링의 이점을 충분히 활용하지 못할 수 있음을 보여줍니다. NLHF는 $k=1$일 때 최적이지만, 결과적으로 생성된 (대부분 결정론적인) 정책에서 샘플링하는 것은 임의로 작은 오차를 제외하고 $ frac{1}{2}$ 이상의 승률을 보장하지 못합니다. 이는 출력 다양성의 부족에서 비롯됩니다. 기존의 정렬 방법은 단일의 가장 선호되는 응답으로 수렴할 수 있으며, 이로 인해 추가적인 샘플은 중복됩니다. 반면, 우리의 접근 방식은 출력 다양성을 유지하고 최적의 테스트 시간 스케일링 속도를 달성합니다. 특히, 우리는 대칭적인 다중 플레이어 정렬 게임의 한 가정을 제안하고, $(k+1)$-플레이어 정렬 게임의 모든 대칭적인 Nash 균형 정책이 최적의 $(k,rac{k}{k+1})$-강건성 정렬을 달성함을 증명합니다. 마지막으로, 우리는 이러한 게임에서의 자기 학습 역학에 대한 이론적인 수렴 보장을 제공하고, 프레임워크를 다수의 응답을 생성하는 적대자에도 확장합니다.
Aligning large language models (LLMs) to serve users with heterogeneous and potentially conflicting preferences is a central challenge for personalized and trustworthy AI. We formalize an ideal notion of universal alignment through test-time scaling: for each prompt, the model produces $k\ge 1$ candidate responses and a user selects their preferred one. We introduce $(k,f(k))$-robust alignment, which requires the $k$-output model to have win rate $f(k)$ against any other single-output model, and asymptotic universal alignment (U-alignment), which requires $f(k)\to 1$ as $k\to\infty$. Our main result characterizes the optimal convergence rate: there exists a family of single-output policies whose $k$-sample product policies achieve U-alignment at rate $f(k)=\frac{k}{k+1}$, and no method can achieve a faster rate in general. We show that popular post-training methods, including Nash learning from human feedback (NLHF), can fundamentally underutilize the benefits of test-time scaling. Even though NLHF is optimal for $k=1$, sampling from the resulting (often deterministic) policy cannot guarantee win rates above $\tfrac{1}{2}$ except for an arbitrarily small slack. This stems from a lack of output diversity: existing alignment methods can collapse to a single majority-preferred response, making additional samples redundant. In contrast, our approach preserves output diversity and achieves the optimal test-time scaling rate. In particular, we propose a family of symmetric multi-player alignment games and prove that any symmetric Nash equilibrium policy of the $(k+1)$-player alignment game achieves the optimal $(k,\frac{k}{k+1})$-robust alignment. Finally, we provide theoretical convergence guarantees for self-play learning dynamics in these games and extend the framework to opponents that also generate multiple responses.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.