2604.11209v1 Apr 13, 2026 cs.CL

충실한 LLM 추론을 위한 지식 충돌 탐구: 벤치마크 및 방법

Exploring Knowledge Conflicts for Faithful LLM Reasoning: Benchmark and Method

Qika Lin
Qika Lin
Citations: 270
h-index: 8
Haiping Zhu
Haiping Zhu
Citations: 49
h-index: 4
Jiaoyan Chen
Jiaoyan Chen
Citations: 9
h-index: 2
Shuxiu Zhang
Shuxiu Zhang
Citations: 0
h-index: 0
Tian-Pei Zhao
Tian-Pei Zhao
Citations: 17
h-index: 3
Jun Liu
Jun Liu
Citations: 10
h-index: 2

대규모 언어 모델(LLM)은 다양한 분야에서 놀라운 성공을 거두었으며, 특히 검색 증강 생성(RAG)을 통해 외부 지식을 활용할 때 더욱 두드러진 성능을 보입니다. 하지만 최근 연구에 따르면 LLM은 충돌하는 지식이 검색될 때, 종종 정확하고 신뢰할 수 있는 추론을 수행하는 데 어려움을 겪습니다. 기존 연구는 주로 LLM의 파라미터 지식과 외부 지식 간의 충돌에 초점을 맞추었지만, 외부 지식 간의 충돌은 상대적으로 덜 연구되었습니다. 동시에, 현대적인 RAG 시스템은 지식 그래프(KG)와 같은 반정형 및 비정형 데이터를 통합하여 지식의 완전성과 추론의 정확성을 향상시키는 데 중점을 두고 있습니다. 이러한 간극을 해소하기 위해, 우리는 텍스트 증거와 KG 증거 간의 충돌을 체계적으로 구현하는 새로운 벤치마크인 ConflictQA를 소개합니다. 대표적인 LLM에 대한 광범위한 평가 결과, 이러한 다양한 출처 간의 충돌에 직면했을 때, LLM은 종종 올바른 추론을 위한 신뢰할 수 있는 증거를 식별하는 데 실패합니다. 대신, LLM은 프롬프트 선택에 더 민감하게 반응하며, KG 또는 텍스트 증거 중 하나에만 의존하는 경향이 있어 잘못된 답변을 생성합니다. 이러한 결과를 바탕으로, 우리는 이질적인 충돌하는 증거에 대한 추론을 위한 두 단계의 설명 기반 추론 프레임워크인 XoT를 제안하고, 광범위한 실험을 통해 그 효과를 검증합니다.

Original Abstract

Large language models (LLMs) have achieved remarkable success across a wide range of applications especially when augmented by external knowledge through retrieval-augmented generation (RAG). Despite their widespread adoption, recent studies have shown that LLMs often struggle to perform faithful reasoning when conflicting knowledge is retrieved. However, existing work primarily focuses on conflicts between external knowledge and the parametric knowledge of LLMs, leaving conflicts across external knowledge largely unexplored. Meanwhile, modern RAG systems increasingly emphasize the integration of unstructured text and (semi-)structured data like knowledge graphs (KGs) to improve knowledge completeness and reasoning faithfulness. To address this gap, we introduce ConflictQA, a novel benchmark that systematically instantiates conflicts between textual evidence and KG evidence. Extensive evaluations across representative LLMs reveal that, facing such cross-source conflicts, LLMs often fail to identify reliable evidence for correct reasoning. Instead, LLMs become more sensitive to prompting choices and tend to rely exclusively on either KG or textual evidence, resulting in incorrect responses. Based on these findings, we further propose XoT, a two-stage explanation-based thinking framework tailored for reasoning over heterogeneous conflicting evidence, and verify its effectiveness with extensive experiments.

0 Citations
0 Influential
4 Altmetric
20.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!