2604.16217v1 Apr 17, 2026 cs.CL

표면 통계의 한계를 넘어: 내부 표현을 활용한 LLM의 견고한 컨포멀 예측

Beyond Surface Statistics: Robust Conformal Prediction for LLMs via Internal Representations

Kaidi Xu
Kaidi Xu
Citations: 6
h-index: 1
Peng Kuang
Peng Kuang
Citations: 9
h-index: 2
Haohan Wang
Haohan Wang
Citations: 10
h-index: 2
Yanlin Wang
Yanlin Wang
Citations: 18
h-index: 3
Xiao Han
Xiao Han
Citations: 5
h-index: 1

대규모 언어 모델(LLM)은 신뢰성이 중요한 환경에서 점점 더 많이 사용되고 있지만, 토큰 확률, 엔트로피, 자기 일관성과 같은 출력 수준의 불확실성 지표는 교정 및 배포 불일치 하에서 불안정해질 수 있습니다. 컨포멀 예측은 교환 가능성 하에서 유한 표본 유효성을 제공하지만, 그 실용성은 비적합성 점수의 품질에 따라 달라집니다. 본 논문에서는 LLM 질의응답을 위한 컨포멀 프레임워크를 제안하며, 출력 지표가 아닌 내부 표현을 사용합니다. 구체적으로, 입력에 대한 조건 설정이 모델 깊이에 따른 예측 엔트로피를 어떻게 변화시키는지 측정하는 레이어별 정보(Layer-Wise Information, LI) 점수를 도입하고, 이를 표준 분할 컨포멀 파이프라인 내에서 비적합성 점수로 사용합니다. 폐쇄형 및 개방형 도메인 질의응답 벤치마크에서, 특히 도메인 간 변화가 있는 경우, 제안하는 방법은 강력한 텍스트 수준의 기준 방법보다 더 나은 유효성-효율성 균형을 달성하면서 동시에 동일한 명목 위험 수준에서 경쟁력 있는 내부 도메인 신뢰성을 유지합니다. 이러한 결과는 표면 수준의 불확실성이 분포 변화 하에서 불안정할 때 내부 표현이 더 유용한 컨포멀 점수를 제공할 수 있음을 시사합니다.

Original Abstract

Large language models are increasingly deployed in settings where reliability matters, yet output-level uncertainty signals such as token probabilities, entropy, and self-consistency can become brittle under calibration--deployment mismatch. Conformal prediction provides finite-sample validity under exchangeability, but its practical usefulness depends on the quality of the nonconformity score. We propose a conformal framework for LLM question answering that uses internal representations rather than output-facing statistics: specifically, we introduce Layer-Wise Information (LI) scores, which measure how conditioning on the input reshapes predictive entropy across model depth, and use them as nonconformity scores within a standard split conformal pipeline. Across closed-ended and open-domain QA benchmarks, with the clearest gains under cross-domain shift, our method achieves a better validity--efficiency trade-off than strong text-level baselines while maintaining competitive in-domain reliability at the same nominal risk level. These results suggest that internal representations can provide more informative conformal scores when surface-level uncertainty is unstable under distribution shift.

0 Citations
0 Influential
1.5 Altmetric
7.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!