표면 통계의 한계를 넘어: 내부 표현을 활용한 LLM의 견고한 컨포멀 예측
Beyond Surface Statistics: Robust Conformal Prediction for LLMs via Internal Representations
대규모 언어 모델(LLM)은 신뢰성이 중요한 환경에서 점점 더 많이 사용되고 있지만, 토큰 확률, 엔트로피, 자기 일관성과 같은 출력 수준의 불확실성 지표는 교정 및 배포 불일치 하에서 불안정해질 수 있습니다. 컨포멀 예측은 교환 가능성 하에서 유한 표본 유효성을 제공하지만, 그 실용성은 비적합성 점수의 품질에 따라 달라집니다. 본 논문에서는 LLM 질의응답을 위한 컨포멀 프레임워크를 제안하며, 출력 지표가 아닌 내부 표현을 사용합니다. 구체적으로, 입력에 대한 조건 설정이 모델 깊이에 따른 예측 엔트로피를 어떻게 변화시키는지 측정하는 레이어별 정보(Layer-Wise Information, LI) 점수를 도입하고, 이를 표준 분할 컨포멀 파이프라인 내에서 비적합성 점수로 사용합니다. 폐쇄형 및 개방형 도메인 질의응답 벤치마크에서, 특히 도메인 간 변화가 있는 경우, 제안하는 방법은 강력한 텍스트 수준의 기준 방법보다 더 나은 유효성-효율성 균형을 달성하면서 동시에 동일한 명목 위험 수준에서 경쟁력 있는 내부 도메인 신뢰성을 유지합니다. 이러한 결과는 표면 수준의 불확실성이 분포 변화 하에서 불안정할 때 내부 표현이 더 유용한 컨포멀 점수를 제공할 수 있음을 시사합니다.
Large language models are increasingly deployed in settings where reliability matters, yet output-level uncertainty signals such as token probabilities, entropy, and self-consistency can become brittle under calibration--deployment mismatch. Conformal prediction provides finite-sample validity under exchangeability, but its practical usefulness depends on the quality of the nonconformity score. We propose a conformal framework for LLM question answering that uses internal representations rather than output-facing statistics: specifically, we introduce Layer-Wise Information (LI) scores, which measure how conditioning on the input reshapes predictive entropy across model depth, and use them as nonconformity scores within a standard split conformal pipeline. Across closed-ended and open-domain QA benchmarks, with the clearest gains under cross-domain shift, our method achieves a better validity--efficiency trade-off than strong text-level baselines while maintaining competitive in-domain reliability at the same nominal risk level. These results suggest that internal representations can provide more informative conformal scores when surface-level uncertainty is unstable under distribution shift.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.