자가 보상 방식이 효과적인 이유: 언어 모델 반복 정렬을 위한 이론적 보장
Why Self-Rewarding Works: Theoretical Guarantees for Iterative Alignment of Language Models
자가 보상 언어 모델(SRLM)은 외부 피드백 없이 반복적인 개선을 통해 상당한 성공을 거두고 있습니다. 그러나 경험적인 발전에도 불구하고, 이러한 모델의 핵심 작동 원리는 여전히 명확하게 밝혀지지 않아 이론적 이해에 중요한 격차가 존재합니다. 본 논문은 SRLM에 대한 최초의 엄격한 이론적 보장을 제공합니다. 먼저, 단일 업데이트 단계의 근본적인 한계를 특징짓는 하한을 설정하여 초기 모델의 품질에 대한 중요한 의존성을 밝힙니다. 그런 다음, 전체 반복 패러다임에 대한 유한 표본 오류 경계를 도출하여, 표본 크기 $n$에 대해 성능이 $ ilde{ ext{O}}rac{1}{ ext{sqrt}{n}}$의 속도로 향상됨을 보여줍니다. 특히, 우리의 분석 결과 초기 모델에 대한 의존성이 반복 횟수 $T$에 따라 지수적으로 감소한다는 것을 밝힙니다. 이는 자가 보상이 성공하는 이유에 대한 공식적인 설명을 제공합니다. 즉, 자가 보상은 자체적인 안정성과 일관성을 향해 동역학을 유도함으로써, 초기 설정의 문제점을 효과적으로 극복합니다. 마지막으로, 우리는 우리의 이론적 프레임워크를 선형 소프트맥스 모델 클래스에 적용하여, 우리의 고수준 통찰력을 실제 모델 아키텍처와 연결하는 맞춤형 보장을 제공합니다.
Self-Rewarding Language Models (SRLMs) achieve notable success in iteratively improving alignment without external feedback. Yet, despite their striking empirical progress, the core mechanisms driving their capabilities remain unelucidated, leaving a critical gap in theoretical understanding. This paper provides the first rigorous theoretical guarantees for SRLMs. We first establish a lower bound that characterizes the fundamental limits of a single update step, revealing a critical dependence on the quality of the initial model. We then derive finite-sample error bounds for the full iterative paradigm, showing that performance improves at a rate of $\widetilde{\mathcal{O}}\left(1/\sqrt{n}\right)$ with sample size $n$. Crucially, our analysis reveals that the dependence on the initial model decays exponentially with the number of iterations $T$. This provides a formal explanation for why self-rewarding succeeds: it robustly overcomes poor initialization by steering the dynamics toward internal stability and consistency. Finally, we instantiate our theoretical framework for the linear softmax model class, yielding tailored guarantees that connect our high-level insights to practical model architectures.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.