2603.28499v1 Mar 30, 2026 cs.LG

다음 토큰 예측과 후회 최소화

Next-Token Prediction and Regret Minimization

Kiran Vodrahalli
Kiran Vodrahalli
Citations: 9,528
h-index: 12
M. Mohri
M. Mohri
Citations: 30,260
h-index: 65
C. Sanford
C. Sanford
Citations: 453
h-index: 8
Jon Schneider
Jon Schneider
Citations: 37
h-index: 3
Yifan Wu
Yifan Wu
Citations: 2
h-index: 1

본 논문에서는 다음 토큰 예측 알고리즘을 적대적인 온라인 의사 결정 환경에서 어떻게 활용할 수 있는지에 대해 고찰합니다. 구체적으로, 상대방의 행동 시퀀스에 대한 분포 $\mathcal{D}$를 사용하여 다음 토큰 예측 모델을 학습할 때, 이 모델의 예측에 근사적으로 최적화하여 온라인 의사 결정 알고리즘을 구성했을 때, 이 알고리즘이 낮은 수준의 적대적 후회를 갖는 조건(즉, $\mathcal{D}$가 '낮은 후회 분포'인 조건)은 언제일까요? 무한한 컨텍스트 윈도우(모델의 예측이 상대방이 지금까지 수행한 모든 행동에 의존할 수 있는 경우)의 경우, 모든 분포 $\mathcal{D}$가 낮은 후회 분포는 아니지만, 모든 분포 $\mathcal{D}$는 TV 거리를 기준으로 하나의 낮은 후회 분포와 지수적으로 가깝다는 것을 보여줍니다. 따라서 원래의 다음 토큰 예측 모델의 정확도에 거의 영향을 주지 않고 항상 하위 선형 수준의 후회를 달성할 수 있습니다. 이에 반해, 유한한 컨텍스트 윈도우(모델의 예측이 상대방이 지금까지 수행한 최근 $w$개의 행동에만 의존하는 경우, 이는 현대 트랜스포머 아키텍처에서 흔히 나타나는 경우입니다)의 경우, 상대방의 플레이 분포 중 일부는 어떤 낮은 후회 분포 $\mathcal{D'}$로부터 $Θ(1)$만큼 멀리 떨어져 있습니다(심지어 $w = Ω(T)$인 경우에도 그러한 분포가 존재합니다). 마지막으로, 본 논문에서는 무한한 컨텍스트의 강건성 확보 절차를 표준 트랜스포머 아키텍처의 레이어로 구현할 수 있음을 보여주고, 트랜스포머 모델을 효율적으로 학습하여 이러한 새로운 낮은 후회 분포를 표현할 수 있다는 경험적 증거를 제공합니다.

Original Abstract

We consider the question of how to employ next-token prediction algorithms in adversarial online decision-making environments. Specifically, if we train a next-token prediction model on a distribution $\mathcal{D}$ over sequences of opponent actions, when is it the case that the induced online decision-making algorithm (by approximately best responding to the model's predictions) has low adversarial regret (i.e., when is $\mathcal{D}$ a \emph{low-regret distribution})? For unbounded context windows (where the prediction made by the model can depend on all the actions taken by the adversary thus far), we show that although not every distribution $\mathcal{D}$ is a low-regret distribution, every distribution $\mathcal{D}$ is exponentially close (in TV distance) to one low-regret distribution, and hence sublinear regret can always be achieved at negligible cost to the accuracy of the original next-token prediction model. In contrast to this, for bounded context windows (where the prediction made by the model can depend only on the past $w$ actions taken by the adversary, as may be the case in modern transformer architectures), we show that there are some distributions $\mathcal{D}$ of opponent play that are $Θ(1)$-far from any low-regret distribution $\mathcal{D'}$ (even when $w = Ω(T)$ and such distributions exist). Finally, we complement these results by showing that the unbounded context robustification procedure can be implemented by layers of a standard transformer architecture, and provide empirical evidence that transformer models can be efficiently trained to represent these new low-regret distributions.

0 Citations
0 Influential
30 Altmetric
150.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!