2601.22513v1 Jan 30, 2026 cs.AI

자기 보상의 작동 원리: 언어 모델의 반복적 정렬에 대한 이론적 보장

Why Self-Rewarding Works: Theoretical Guarantees for Iterative Alignment of Language Models

Yingjie Wang
Yingjie Wang
Citations: 254
h-index: 7
Shengchao Hu
Shengchao Hu
Citations: 713
h-index: 9
Dacheng Tao
Dacheng Tao
Citations: 216
h-index: 6
Shi Fu
Shi Fu
Citations: 48
h-index: 5
Peng Wang
Peng Wang
Citations: 153
h-index: 7

자기 보상 언어 모델(SRLM)은 외부 피드백 없이 반복적으로 정렬을 개선하며 주목할 만한 성과를 거두고 있다. 그러나 놀라운 실증적 발전에도 불구하고, 이러한 능력을 구동하는 핵심 메커니즘은 여전히 규명되지 않아 이론적 이해에 중대한 공백이 남아 있다. 본 논문은 SRLM에 대한 최초의 엄밀한 이론적 보장을 제시한다. 먼저 단일 업데이트 단계의 근본적 한계를 규정하는 하한을 확립하여 초기 모델 품질에 대한 결정적인 의존성을 밝힌다. 이어 전체 반복 패러다임에 대한 유한 표본 오차 한계를 도출하여, 표본 크기 $n$에 대해 성능이 $\widetilde{\mathcal{O}}\left(1/\sqrt{n}\right)$의 비율로 향상됨을 입증한다. 결정적으로, 우리의 분석은 초기 모델에 대한 의존성이 반복 횟수 $T$에 따라 지수적으로 감소한다는 사실을 보여준다. 이는 자기 보상이 성공하는 이유에 대한 공식적인 설명을 제공하는데, 즉 동역학을 내부 안정성과 일관성으로 유도함으로써 좋지 않은 초기화 문제를 강건하게 극복한다는 것이다. 마지막으로, 우리는 이 이론적 프레임워크를 선형 소프트맥스 모델 클래스에 적용하여, 우리의 고수준 통찰을 실용적인 모델 아키텍처와 연결하는 구체적인 보장을 도출한다.

Original Abstract

Self-Rewarding Language Models (SRLMs) achieve notable success in iteratively improving alignment without external feedback. Yet, despite their striking empirical progress, the core mechanisms driving their capabilities remain unelucidated, leaving a critical gap in theoretical understanding. This paper provides the first rigorous theoretical guarantees for SRLMs. We first establish a lower bound that characterizes the fundamental limits of a single update step, revealing a critical dependence on the quality of the initial model. We then derive finite-sample error bounds for the full iterative paradigm, showing that performance improves at a rate of $\widetilde{\mathcal{O}}\left(1/\sqrt{n}\right)$ with sample size $n$. Crucially, our analysis reveals that the dependence on the initial model decays exponentially with the number of iterations $T$. This provides a formal explanation for why self-rewarding succeeds: it robustly overcomes poor initialization by steering the dynamics toward internal stability and consistency. Finally, we instantiate our theoretical framework for the linear softmax model class, yielding tailored guarantees that connect our high-level insights to practical model architectures.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!