2601.22950v1 Jan 30, 2026 cs.LG

언뜻 보이는 오류를 감지하지 못하는 Perplexity: 항상 옳고 그름을 판단하는 지표는 아니다

Perplexity Cannot Always Tell Right from Wrong

Simon Osindero
Simon Osindero
Citations: 45,287
h-index: 36
Razvan Pascanu
Razvan Pascanu
Google DeepMind
Citations: 55,202
h-index: 75
Petar Velivckovi'c
Petar Velivckovi'c
Citations: 5,452
h-index: 22
Federico Barbero
Federico Barbero
Citations: 464
h-index: 7
Christos Perivolaropoulos
Christos Perivolaropoulos
Citations: 185
h-index: 4

Perplexity는 모델이 특정 출력을 접했을 때 느끼는 전반적인 '놀라움' 정도를 측정하는 함수로서, 최근 몇 년 동안 손실 함수이자 모델 품질을 간단하게 측정하는 지표로 널리 사용되어 왔다. 기존 연구들은 경험적인 관점에서 Perplexity의 여러 한계점을 지적해 왔다. 본 연구에서는 Transformer 모델의 연속성에 대한 최근 연구 결과를 활용하여 Perplexity가 모델 선택에 적합하지 않은 지표일 수 있는 이유를 엄밀하게 설명한다. 구체적으로, 우리는 compact한 decoder-only Transformer 모델이 정확하고 확신을 가지고 예측해야 하는 sequence가 존재한다면, 반드시 해당 모델이 정확하게 예측하지 못하는 매우 낮은 Perplexity를 갖는 다른 sequence가 존재해야 함을 증명한다. 또한, iso-perplexity 그래프를 분석적으로 연구한 결과, Perplexity는 항상 더 정확한 모델을 선택하는 지표가 아니며, 새로운 모델이 선택되기 위해서는 모델의 확신도가 증가함에 따라 정확도 또한 그에 상응하는 수준으로 증가해야 함을 발견했다.

Original Abstract

Perplexity -- a function measuring a model's overall level of "surprise" when encountering a particular output -- has gained significant traction in recent years, both as a loss function and as a simple-to-compute metric of model quality. Prior studies have pointed out several limitations of perplexity, often from an empirical manner. Here we leverage recent results on Transformer continuity to show in a rigorous manner how perplexity may be an unsuitable metric for model selection. Specifically, we prove that, if there is any sequence that a compact decoder-only Transformer model predicts accurately and confidently -- a necessary pre-requisite for strong generalisation -- it must imply existence of another sequence with very low perplexity, but not predicted correctly by that same model. Further, by analytically studying iso-perplexity plots, we find that perplexity will not always select for the more accurate model -- rather, any increase in model confidence must be accompanied by a commensurate rise in accuracy for the new model to be selected.

0 Citations
0 Influential
30 Altmetric
150.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!