2601.22950v1 Jan 30, 2026 cs.LG

언뜻 보이는 오류를 감지하지 못하는 Perplexity: 항상 옳고 그름을 판단하는 지표는 아니다

Perplexity Cannot Always Tell Right from Wrong

Simon Osindero
Simon Osindero
Citations: 46,713
h-index: 36
Razvan Pascanu
Razvan Pascanu
Google DeepMind
Citations: 56,344
h-index: 77
Petar Velivckovi'c
Petar Velivckovi'c
Citations: 6,224
h-index: 23
Federico Barbero
Federico Barbero
Citations: 564
h-index: 7
Christos Perivolaropoulos
Christos Perivolaropoulos
Citations: 221
h-index: 4

Perplexity는 모델이 특정 출력을 접했을 때 느끼는 전반적인 '놀라움' 정도를 측정하는 함수로서, 최근 몇 년 동안 손실 함수이자 모델 품질을 간단하게 측정하는 지표로 널리 사용되어 왔다. 기존 연구들은 경험적인 관점에서 Perplexity의 여러 한계점을 지적해 왔다. 본 연구에서는 Transformer 모델의 연속성에 대한 최근 연구 결과를 활용하여 Perplexity가 모델 선택에 적합하지 않은 지표일 수 있는 이유를 엄밀하게 설명한다. 구체적으로, 우리는 compact한 decoder-only Transformer 모델이 정확하고 확신을 가지고 예측해야 하는 sequence가 존재한다면, 반드시 해당 모델이 정확하게 예측하지 못하는 매우 낮은 Perplexity를 갖는 다른 sequence가 존재해야 함을 증명한다. 또한, iso-perplexity 그래프를 분석적으로 연구한 결과, Perplexity는 항상 더 정확한 모델을 선택하는 지표가 아니며, 새로운 모델이 선택되기 위해서는 모델의 확신도가 증가함에 따라 정확도 또한 그에 상응하는 수준으로 증가해야 함을 발견했다.

Original Abstract

Perplexity -- a function measuring a model's overall level of "surprise" when encountering a particular output -- has gained significant traction in recent years, both as a loss function and as a simple-to-compute metric of model quality. Prior studies have pointed out several limitations of perplexity, often from an empirical manner. Here we leverage recent results on Transformer continuity to show in a rigorous manner how perplexity may be an unsuitable metric for model selection. Specifically, we prove that, if there is any sequence that a compact decoder-only Transformer model predicts accurately and confidently -- a necessary pre-requisite for strong generalisation -- it must imply existence of another sequence with very low perplexity, but not predicted correctly by that same model. Further, by analytically studying iso-perplexity plots, we find that perplexity will not always select for the more accurate model -- rather, any increase in model confidence must be accompanied by a commensurate rise in accuracy for the new model to be selected.

2 Citations
0 Influential
30 Altmetric
152.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!