컨포멀 샘플링을 통한 일반화 보증을 갖춘 조건부 사실성 제어 LLM
Conditional Factuality Controlled LLMs with Generalization Certificates via Conformal Sampling
대규모 언어 모델(LLM)은 테스트 시점의 환각 현상을 신뢰성 있게 제어할 필요가 있습니다. 기존의 LLM에 대한 컨포멀 방법은 일반적으로 extit{경미한} 수준의 보증만을 제공하며, 단일한 전역 임계값에 의존하여 어려운 프롬프트는 과소 커버하고, 쉬운 프롬프트는 과대 커버하며, 결과적으로 예측 집합의 크기가 지나치게 커지는 문제가 발생할 수 있습니다. 본 논문에서는 extit{조건부 사실성 제어}(Conditional Factuality Control, CFC)라는 사후(post-hoc) 컨포멀 프레임워크를 제안합니다. CFC는 extit{집합 값} 형태의 출력을 제공하며, extit{조건부} 커버리지 보증을 제공합니다. CFC는 잠재적인 "성공" 점수에 대한 증강된 양자 회귀를 통해 연속적이고 특징에 조건부인 수용 임계값을 정의하고, 추론 시점에 고정점 임계값 규칙을 통해 이를 적용합니다. 이론적으로, CFC는 교환성(exchangeability) 하에서 조건부 커버리지 보증을 만족함을 증명했으며, 그 extit{효율성}을 분석했습니다. 경미한 분포 가정 하에서, 조건부 규칙은 동일한 목표 커버리지를 달성하는 경우, 기존의 경계 컨포멀 예측보다 더 많은 샘플 효율성을 제공합니다. 또한, 안정성 경계를 기반으로 명목적 위험 수준을 줄이는 PAC 스타일의 변형인 CFC-PAC를 도출했습니다. CFC-PAC는 유한한 샘플 크기에 대해 조건부 오커버리지(miscoverage)가 목표 값에서 최대 $O(rac{ ext{log}(1/δ)}{N})$만큼 벗어나는 것을 보장하는 증명(certificate)을 제공합니다. 실험적으로, CFC와 CFC-PAC는 합성 데이터, 실제 추론 및 질의응답 벤치마크, 그리고 Flickr8k VLM 설정에서 다양한 난이도 그룹에 걸쳐 일관되게 목표 커버리지에 가까운 결과를 보여주었으며, 기존의 컨포멀 및 비컨포멀 기준 모델보다 더 작은 예측 집합을 사용했습니다.
Large language models (LLMs) need reliable test-time control of hallucinations. Existing conformal methods for LLMs typically provide only \emph{marginal} guarantees and rely on a single global threshold, which can under-cover hard prompts, over-cover easy ones, and produce oversized prediction sets. We propose \emph{Conditional Factuality Control} (CFC), a post-hoc conformal framework that returns \emph{set-valued} outputs with \emph{conditional} coverage guarantees. CFC defines a continuous, feature-conditional acceptance threshold through augmented quantile regression on a latent ``success'' score, and deploys it through a fixed-point threshold rule at inference time. Theoretically, we show that CFC satisfies a conditional coverage guarantee under exchangeability and analyze its \emph{efficiency}, proving that, under mild assumptions on the score distributions, the conditional rule is strictly more sample-efficient than marginal conformal prediction at the same target coverage. We further derive a PAC-style variant, CFC-PAC, which shrinks the nominal risk level based on a stability bound, yielding a finite-sample certificate that the conditional miscoverage deviates from the target by at most $O(\sqrt{\log(1/δ)/N})$. Empirically, on synthetic data, real-world reasoning and QA benchmarks, and a Flickr8k VLM setting, CFC and CFC-PAC consistently attain near-target coverage across difficulty groups while using smaller prediction sets than CP and non-CP baselines.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.