IntroLM: 프리필링 단계의 자기 평가를 통한 통찰적 언어 모델
IntroLM: Introspective Language Models via Prefilling-Time Self-Evaluation
대규모 언어 모델(LLM)의 운영에서 중요한 과제는 특정 LLM이 주어진 질문에 대해 충분히 높은 품질의 결과를 생성할 수 있을지 예측하는 것입니다. 기존 방법은 주로 BERT 기반 모델과 같은 외부 분류기에 의존하는데, 이러한 분류기는 제한된 컨텍스트 창, 제약된 표현 능력 및 추가적인 계산 오버헤드를 가지고 있습니다. 본 논문에서는 IntroLM이라는 방법을 제안합니다. IntroLM은 원인-결과 언어 모델이 통찰적 토큰을 사용하여 생성 과정에 영향을 주지 않고 프리필링 단계에서 자체 출력 품질을 예측할 수 있도록 합니다. 토큰 조건부 LoRA를 도입하여 통찰적 토큰에만 활성화되도록 함으로써, 모델은 원래의 핵심 동작을 유지하면서 외부 평가기를 사용하지 않고 주어진 질문에 대한 출력 품질을 예측하도록 학습됩니다. 질문 응답 벤치마크에서 Qwen3 8B 모델에 적용된 IntroLM은 성공 예측에 대해 90%의 ROC AUC를 달성하여 DeBERTa 분류기보다 14% 향상된 성능을 보였습니다. 또한, IntroLM을 다중 모델 라우팅 시스템에 통합하면, 동일한 신뢰성 수준에서 지연 시간을 최대 33% 단축하고, 대규모 모델 사용량을 최대 50%까지 줄이는 등 우수한 비용 효율성을 제공합니다.
A major challenge for the operation of large language models (LLMs) is how to predict whether a specific LLM will produce sufficiently high-quality output for a given query. Existing approaches rely on external classifiers, most commonly BERT based models, which suffer from limited context windows, constrained representational capacity, and additional computational overhead. We propose IntroLM, a method that enables causal language models to predict their own output quality during the prefilling phase without affecting generation using introspective tokens. By introducing token conditional LoRA that activates only for the introspective token, the model learns to predict the output quality for a given query while preserving the original backbone behavior and avoiding external evaluators. On question answering benchmarks, IntroLM applied to Qwen3 8B achieves a ROC AUC of 90 precent for success prediction, outperforming a DeBERTa classifier by 14 precent. When integrated into multi model routing systems, IntroLM achieves superior cost performance tradeoffs, reducing latency by up to 33 precent and large model usage by up to 50 precent at matched reliability.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.