2601.04651v2 Jan 08, 2026 cs.AI

적대적이면서도 협력적인: 검색 증강 언어 모델에서의 다중 관점 추론

Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models

Shuaiqiang Wang
Shuaiqiang Wang
Citations: 2,130
h-index: 18
Dawei Yin
Dawei Yin
Citations: 1,218
h-index: 18
Lingyong Yan
Lingyong Yan
Baidu Inc.
Citations: 1,248
h-index: 16
Jiayi Wu
Jiayi Wu
Citations: 40
h-index: 3
Yuchen Li
Yuchen Li
Citations: 44
h-index: 3
Jizhou Huang
Jizhou Huang
Citations: 11
h-index: 2
Xiang Li
Xiang Li
Citations: 17
h-index: 1
Can Xu
Can Xu
Citations: 43
h-index: 4
Haosen Wang
Haosen Wang
Citations: 209
h-index: 9

최근 대규모 추론 모델(LRM)과 검색 증강 생성(RAG)을 결합하는 연구가 유망한 성과를 보이고 있으나, 두 가지 주요 과제가 남아 있습니다. (1) 추론 모델이 주로 이의 제기가 없는 단일 관점에서 작동하여 외부 문서에 대해 깊이 있는 자기 교정 추론을 수행하는 데 한계가 있다는 점, (2) 기존 학습 패러다임이 결과 중심 보상에 지나치게 의존하여 복잡한 다단계 추론 과정을 형성하는 데 충분한 신호를 제공하지 못한다는 점입니다. 이러한 문제를 해결하기 위해, 본 논문에서는 적대적 추론 RAG(ARR)라는 추론기-검증기 프레임워크를 제안합니다. 추론기와 검증기는 별도의 외부 채점 모델이 필요 없는 과정 인식 이점(process-aware advantage)의 유도를 받아, 검색된 증거에 대해 추론하고 서로의 논리를 비평합니다. 이 보상 체계는 명시적 관찰 신호와 내부 모델 불확실성을 결합하여 추론의 충실도와 검증의 엄격성을 공동으로 최적화합니다. 다수의 벤치마크 실험을 통해 제안하는 방법의 효과를 입증하였습니다.

Original Abstract

Recent advances in synergizing large reasoning models (LRMs) with retrieval-augmented generation (RAG) have shown promising results, yet two critical challenges remain: (1) reasoning models typically operate from a single, unchallenged perspective, limiting their ability to conduct deep, self-correcting reasoning over external documents, and (2) existing training paradigms rely excessively on outcome-oriented rewards, which provide insufficient signal for shaping the complex, multi-step reasoning process. To address these issues, we propose an Reasoner-Verifier framework named Adversarial Reasoning RAG (ARR). The Reasoner and Verifier engage in reasoning on retrieved evidence and critiquing each other's logic while being guided by process-aware advantage that requires no external scoring model. This reward combines explicit observational signals with internal model uncertainty to jointly optimize reasoning fidelity and verification rigor. Experiments on multiple benchmarks demonstrate the effectiveness of our method.

0 Citations
0 Influential
9 Altmetric
45.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!