2604.13991v1 Apr 15, 2026 cs.CL

대규모 언어 모델의 생성 결과의 사실성을 향상시키기 위한 적응형 컨포멀 예측

Adaptive Conformal Prediction for Improving Factuality of Generations by Large Language Models

Preslav Nakov
Preslav Nakov
Citations: 7,947
h-index: 48
Maxim Panov
Maxim Panov
Citations: 460
h-index: 8
Aleksandr Rubashevskii
Aleksandr Rubashevskii
Citations: 292
h-index: 5
Dzianis Piatrashyn
Dzianis Piatrashyn
Citations: 0
h-index: 0

대규모 언어 모델(LLM)은 사실과 다른 내용을 생성하는 경향이 있습니다. 최근 연구에서는 컨포멀 예측을 활용하여 LLM 생성 결과의 사실성에 대한 불확실성 추정 및 통계적 보장을 제공하고자 했습니다. 그러나 기존 방식은 일반적으로 프롬프트에 대한 적응성이 낮아, 입력에 따른 변동성을 제대로 반영하지 못합니다. 그 결과, 특정 작업이나 프롬프트에 대해 너무 적은 항목을 필터링하여 과도한 포함(over-coverage)을 초래하거나, 너무 많은 항목을 필터링하여 부족한 포함(under-coverage)을 초래할 수 있습니다. 본 연구에서는 LLM에 컨포멀 점수 변환 방법을 확장하여 프롬프트에 따라 적응적으로 조정되는 컨포멀 예측 방식을 제안합니다. 이는 장문 생성 및 객관식 문제 응답에 적용될 수 있으며, 주변 포함 보장 수준을 유지하면서 조건부 포함률을 향상시킵니다. 또한, 제안하는 방식은 신뢰성이 낮은 주장을 필터링하는 선택적 예측을 자연스럽게 지원하여, 후속 응용 분야에서 활용될 수 있습니다. 다양한 도메인의 여러 개방형 모델에서 제안하는 방식을 평가한 결과, 조건부 포함률 측면에서 기존 방식보다 훨씬 우수한 성능을 보였습니다.

Original Abstract

Large language models (LLMs) are prone to generating factually incorrect outputs. Recent work has applied conformal prediction to provide uncertainty estimates and statistical guarantees for the factuality of LLM generations. However, existing approaches are typically not prompt-adaptive, limiting their ability to capture input-dependent variability. As a result, they may filter out too few items (leading to over-coverage) or too many (under-coverage) for a given task or prompt. We propose an adaptive conformal prediction approach that extends conformal score transformation methods to LLMs, with applications to long-form generation and multiple-choice question answering. This enables prompt-dependent calibration, retaining marginal coverage guarantees while improving conditional coverage. In addition, the approach naturally supports selective prediction, allowing unreliable claims or answer choices to be filtered out in downstream applications. We evaluate our approach on multiple white-box models across diverse domains and show that it significantly outperforms existing baselines in terms of conditional coverage.

0 Citations
0 Influential
24 Altmetric
120.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!