침묵이 금이 될 때: LLM은 시간 기반 질의응답 및 그 이상에서 회피하는 방법을 학습할 수 있을까요?
When Silence Is Golden: Can LLMs Learn to Abstain in Temporal QA and Beyond?
대규모 언어 모델(LLM)은 불확실성을 거의 인정하지 않으며, 종종 사실이 아닌 유창한 답변을 생성하는 경향이 있습니다. 이러한 약점은 시간 기반 질의응답에서 더욱 두드러지는데, 모델은 종종 시간과 관련된 중요한 증거를 무시하고 서로 다른 시간대의 사실을 혼동합니다. 본 논문에서는 시간 기반 질의응답에 대한 추론을 수행하면서 회피 능력을 갖춘 LLM을 학습하는 최초의 실증 연구를 제시합니다. 기존의 보정(calibration)과 같은 접근 방식은 복잡한 추론에서 불확실성을 정확하게 파악하는 데 신뢰성이 떨어질 수 있습니다. 우리는 대신 회피를 가르칠 수 있는 기술로 간주하고, 연쇄적 사고(Chain-of-Thought, CoT) 감독을 강화 학습(Reinforcement Learning, RL)과 결합하는 파이프라인을 소개합니다. 이 파이프라인은 회피를 고려한 보상을 통해 학습을 진행합니다. 우리의 목표는 다양한 유형의 정보와 학습 기술이 LLM의 시간 기반 추론에서 회피 행동에 미치는 영향을 체계적으로 분석하는 것입니다. 다양한 방법을 연구한 광범위한 실험을 통해, 강화 학습이 추론 능력에 상당한 성능 향상을 가져온다는 것을 확인했습니다. Qwen2.5-1.5B-Instruct으로 초기화된 모델은 TimeQA-Easy 및 Hard 데이터셋에서 GPT-4o를 각각 3.46% 및 5.80% 이상 능가했습니다. 또한, 순수한 감독 학습(Supervised Fine-Tuning, SFT) 방식에 비해 답변 불가능한 질문에 대한 정답률을 20% 향상시켰습니다. 성능 외에도, 분석 결과 SFT는 과신을 유발하고 신뢰성을 저해하는 반면, 강화 학습은 예측 정확도를 향상시키지만 유사한 위험을 내포하고 있음을 확인했습니다. 마지막으로, 암시적 추론 단서(예: 원본 컨텍스트, 시간 하위 컨텍스트, 지식 그래프)와 명시적 CoT 감독을 비교한 결과, 암시적 정보는 회피를 통한 추론에 제한적인 이점을 제공하는 것으로 나타났습니다. 본 연구는 회피와 추론을 공동으로 최적화하는 방법에 대한 새로운 통찰력을 제공하며, 보다 신뢰할 수 있는 LLM을 구축하는 데 필요한 기반을 제공합니다.
Large language models (LLMs) rarely admit uncertainty, often producing fluent but misleading answers, rather than abstaining (i.e., refusing to answer). This weakness is even evident in temporal question answering, where models frequently ignore time-sensitive evidence and conflate facts across different time-periods. In this paper, we present the first empirical study of training LLMs with an abstention ability while reasoning about temporal QA. Existing approaches such as calibration might be unreliable in capturing uncertainty in complex reasoning. We instead frame abstention as a teachable skill and introduce a pipeline that couples Chain-of-Thought (CoT) supervision with Reinforcement Learning (RL) guided by abstention-aware rewards. Our goal is to systematically analyze how different information types and training techniques affect temporal reasoning with abstention behavior in LLMs. Through extensive experiments studying various methods, we find that RL yields strong empirical gains on reasoning: a model initialized by Qwen2.5-1.5B-Instruct surpasses GPT-4o by $3.46\%$ and $5.80\%$ in Exact Match on TimeQA-Easy and Hard, respectively. Moreover, it improves the True Positive rate on unanswerable questions by $20\%$ over a pure supervised fine-tuned (SFT) variant. Beyond performance, our analysis shows that SFT induces overconfidence and harms reliability, while RL improves prediction accuracy but exhibits similar risks. Finally, by comparing implicit reasoning cues (e.g., original context, temporal sub-context, knowledge graphs) with explicit CoT supervision, we find that implicit information provides limited benefit for reasoning with abstention. Our study provides new insights into how abstention and reasoning can be jointly optimized, providing a foundation for building more reliable LLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.