I-CALM: LLM 환각 현상 완화를 위한 신뢰도 기반 회피 유도 방법
I-CALM: Incentivizing Confidence-Aware Abstention for LLM Hallucination Mitigation
대규모 언어 모델(LLM)은 종종 정확하지 않은 답변을 높은 확신도와 함께 제시하는데, 이는 일반적인 이분법적 평가 방식이 솔직하게 불확실성을 표현하는 것보다 답변하는 것을 장려하기 때문입니다. 본 연구에서는 모델 자체를 수정하지 않고, 프롬프트 기반의 개입, 즉 답변과 회피 결정에 대한 명시적인 보상 체계와 겸손을 강조하는 규범 원칙을 결합하여 환각 위험을 줄일 수 있는지 조사합니다. 특히, 현재 LLM이 답변에 대한 불확실성을 가지고 있음에도 불구하고 회피하지 않는 경향이 있는, 검증 가능한 답변이 있는 사실 기반 질문에 대한 회피(abstention)에 초점을 맞춥니다. 먼저, 자기 보고된 언어적 확신도를 활용 가능한 불확실성 신호로 평가하며, 프롬프트 재작성 시 안정성을 보이고 토큰 확률 기준과 합리적인 상관관계를 갖는다는 것을 확인합니다. 이후, (i) 언어적 확신도를 유도하고, (ii) 명시적인 보상 체계를 통해 부분적으로 회피를 장려하며, (iii) 진실성, 겸손, 책임감을 강조하는 경량 규범 원칙을 추가하는 프롬프트 기반 프레임워크인 I-CALM을 연구합니다. PopQA 데이터셋을 사용한 GPT-5 mini 모델을 통해, 확신도를 유도하고 회피에 대한 보상을 제공하는 프롬프트, 특히 규범을 함께 사용할 경우, 답변된 경우의 오답률을 주로 오류 발생 가능성이 높은 사례를 회피로 전환하고 그들의 확신도를 재조정함으로써 감소시키는 것을 확인했습니다. 이는 데이터 커버리지를 희생하여 신뢰성을 향상시키는 방식으로, 강제 답변 성능에는 큰 변화가 없습니다. 회피 보상의 크기를 조절하면 회피와 환각 현상 간의 명확한 경계를 설정할 수 있습니다. 전반적으로, 본 연구는 모델 재학습 없이 사실 기반 질문에 대한 선택적 답변 능력을 향상시키는 프레임워크를 제시하며, 효과의 크기는 모델 및 데이터셋에 따라 달라질 수 있습니다. 관련 코드는 다음 링크에서 확인할 수 있습니다: https://github.com/binzeli/hallucinationControl.
Large language models (LLMs) frequently produce confident but incorrect answers, partly because common binary scoring conventions reward answering over honestly expressing uncertainty. We study whether prompt-only interventions -- explicitly announcing reward schemes for answer-versus-abstain decisions plus humility-oriented normative principles -- can reduce hallucination risk without modifying the model. Our focus is epistemic abstention on factual questions with a verifiable answer, where current LLMs often fail to abstain despite being uncertain about their answers. We first assess self-reported verbal confidence as a usable uncertainty signal, showing stability under prompt paraphrasing and reasonable calibration against a token-probability baseline. We then study I-CALM, a prompt-based framework that (i) elicits verbal confidence, (ii) partially rewards abstention through explicit reward schemes, and (iii) adds lightweight normative principles emphasizing truthfulness, humility, and responsibility. Using GPT-5 mini on PopQA as the main setting, we find that confidence-eliciting, abstention-rewarding prompts, especially with norms, reduce the false-answer rate on answered cases mainly by identifying and shifting error-prone cases to abstention and re-calibrating their confidence. This trades coverage for reliability while leaving forced-answer performance largely unchanged. Varying the abstention reward yields a clear abstention-hallucination frontier. Overall, results show the framework can improve selective answering on factual questions without retraining, with the magnitude of effect varying across models and datasets. Code is available at the following https://github.com/binzeli/hallucinationControl.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.