2602.09924v1 Feb 10, 2026 cs.CL

LLM이 실패를 어떻게 표현하는가: 사전 생성 활성화를 통해 성공을 예측

LLMs Encode Their Failures: Predicting Success from Pre-Generation Activations

Thomas Foster
Thomas Foster
Citations: 37
h-index: 3
William Bankes
William Bankes
Citations: 48
h-index: 4
William Lugoloobi
William Lugoloobi
Citations: 3
h-index: 1
Chris Russell
Chris Russell
Citations: 6
h-index: 2

LLM을 사용하여 모든 문제에 대해 확장된 추론을 수행하는 것은 비용이 많이 들지만, 실제로 추가적인 연산이 필요한 입력 데이터를 판별하는 것은 여전히 어려운 과제입니다. 본 연구에서는 LLM의 내부 표현에서 생성 전에 성공 가능성을 예측할 수 있는지, 그리고 이러한 신호가 보다 효율적인 추론을 안내할 수 있는지 조사합니다. 수학 및 코딩 작업에서 정책별 성공을 예측하기 위해 사전 생성 활성화 데이터를 기반으로 선형 탐색 모델을 학습했으며, 이는 질문 길이 및 TF-IDF와 같은 표면적인 특징보다 훨씬 뛰어난 성능을 보였습니다. E2H-AMC 데이터셋을 사용하여 인간과 모델의 성능을 동일한 문제에 대해 비교한 결과, 모델은 인간의 난이도와는 다른 모델 고유의 난이도 개념을 인코딩하고 있으며, 이는 확장된 추론이 진행될수록 더욱 뚜렷해지는 것을 확인했습니다. 이러한 탐색 모델을 활용하여, 여러 모델 풀에서 쿼리를 라우팅하면 최상의 성능을 보이는 모델을 능가하면서 MATH 문제에서 최대 70%까지 추론 비용을 절감할 수 있음을 보여주었습니다. 이는 내부 표현이 인간이 생각하는 난이도와 다를 수 있지만, 실제적인 효율성 향상을 가능하게 한다는 것을 의미합니다. 본 연구의 코드는 다음 링크에서 확인할 수 있습니다: https://github.com/KabakaWilliam/llms_know_difficulty

Original Abstract

Running LLMs with extended reasoning on every problem is expensive, but determining which inputs actually require additional compute remains challenging. We investigate whether their own likelihood of success is recoverable from their internal representations before generation, and if this signal can guide more efficient inference. We train linear probes on pre-generation activations to predict policy-specific success on math and coding tasks, substantially outperforming surface features such as question length and TF-IDF. Using E2H-AMC, which provides both human and model performance on identical problems, we show that models encode a model-specific notion of difficulty that is distinct from human difficulty, and that this distinction increases with extended reasoning. Leveraging these probes, we demonstrate that routing queries across a pool of models can exceed the best-performing model whilst reducing inference cost by up to 70\% on MATH, showing that internal representations enable practical efficiency gains even when they diverge from human intuitions about difficulty. Our code is available at: https://github.com/KabakaWilliam/llms_know_difficulty

1 Citations
0 Influential
22 Altmetric
111.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!