2601.05465v1 Jan 09, 2026 cs.AI

PRISMA: 오픈 도메인 멀티 홉 질의응답을 위한 멀티 에이전트 아키텍처에서의 강화학습 유도 2단계 정책 최적화

PRISMA: Reinforcement Learning Guided Two-Stage Policy Optimization in Multi-Agent Architecture for Open-Domain Multi-Hop Question Answering

Yu Liu
Yu Liu
Citations: 4
h-index: 1
Wenxiao Zhang
Wenxiao Zhang
Citations: 67
h-index: 4
Cong Cao
Cong Cao
Citations: 19
h-index: 2
Fangfang Yuan
Fangfang Yuan
Citations: 224
h-index: 5
Diandian Guo
Diandian Guo
Citations: 7
h-index: 1
Kun Peng
Kun Peng
Citations: 5
h-index: 1
Qiang Sun
Qiang Sun
Citations: 1
h-index: 1
Kaiyan Zhang
Kaiyan Zhang
Citations: 1,684
h-index: 19
Yanbing Liu
Yanbing Liu
Citations: 72
h-index: 3
Jin B.Hong
Jin B.Hong
Citations: 0
h-index: 0
Bowen Zhou
Bowen Zhou
Citations: 149
h-index: 7
Zhiyuan Ma
Zhiyuan Ma
Citations: 233
h-index: 8
Wenxuan Lu
Wenxuan Lu
Citations: 11
h-index: 2

대규모 말뭉치에 대한 실제 오픈 도메인 멀티 홉 질문에 답하는 것은 검색 증강 생성(RAG) 시스템에서 중요한 과제입니다. 최근 연구들은 검색 증강 추론 과정을 엔드투엔드로 최적화하기 위해 강화학습(RL)을 도입하여, 복잡한 쿼리를 해결하는 능력을 직접적으로 향상시키고 있습니다. 그러나 신뢰할 수 있는 배포는 두 가지 장애물로 인해 저해됩니다. 1) 검색 붕괴(Retrieval Collapse): 추론 기반 계획(planning) 없이는 대규모 말뭉치에 대한 반복 검색이 중간 답변(bridge answers)을 포함하는 중간 증거를 찾지 못하여, 하위 추론 과정이 붕괴됩니다. 2) 학습 불안정성(Learning Instability): 엔드투엔드 궤적 훈련은 추론 체인 전반에 걸친 약한 신용 할당(credit assignment)과 모듈 간의 저조한 오류 국소화(error localization) 문제를 겪으며, 이는 전이성과 안정성을 제한하는 벤치마크 특화 휴리스틱에 과적합되는 원인이 됩니다. 이러한 문제를 해결하기 위해, 우리는 계획(Plan)-검색(Retrieve)-검사(Inspect)-해결(Solve)-메모(Memoize) 아키텍처를 특징으로 하는 분리형 RL 유도 프레임워크인 PRISMA를 제안합니다. PRISMA의 강점은 추론 유도 협업에 있습니다. 검사자(Inspector)는 추론 기반 피드백을 제공하여 계획자(Planner)의 분해 및 세밀한 검색을 정제하는 동시에, 해결자(Solver)가 증거에 기반한 추론을 수행하도록 강제합니다. 우리는 2단계 그룹 상대 정책 최적화(GRPO)를 통해 개별 에이전트의 역량을 최적화합니다. 1단계에서는 계획자와 해결자를 계획 및 추론 분야의 전문 전문가로 보정하고, 2단계에서는 관찰 인식 잔차 정책 최적화(OARPO)를 활용하여 문맥을 검증하고 목표화된 복구를 트리거하는 검사자의 능력을 향상시킵니다. 실험 결과, PRISMA는 10개의 벤치마크에서 최첨단 성능을 달성했으며 실제 시나리오에 효율적으로 배포될 수 있음을 보여줍니다.

Original Abstract

Answering real-world open-domain multi-hop questions over massive corpora is a critical challenge in Retrieval-Augmented Generation (RAG) systems. Recent research employs reinforcement learning (RL) to end-to-end optimize the retrieval-augmented reasoning process, directly enhancing its capacity to resolve complex queries. However, reliable deployment is hindered by two obstacles. 1) Retrieval Collapse: iterative retrieval over large corpora fails to locate intermediate evidence containing bridge answers without reasoning-guided planning, causing downstream reasoning to collapse. 2) Learning Instability: end-to-end trajectory training suffers from weak credit assignment across reasoning chains and poor error localization across modules, causing overfitting to benchmark-specific heuristics that limit transferability and stability. To address these problems, we propose PRISMA, a decoupled RL-guided framework featuring a Plan-Retrieve-Inspect-Solve-Memoize architecture. PRISMA's strength lies in reasoning-guided collaboration: the Inspector provides reasoning-based feedback to refine the Planner's decomposition and fine-grained retrieval, while enforcing evidence-grounded reasoning in the Solver. We optimize individual agent capabilities via Two-Stage Group Relative Policy Optimization (GRPO). Stage I calibrates the Planner and Solver as specialized experts in planning and reasoning, while Stage II utilizes Observation-Aware Residual Policy Optimization (OARPO) to enhance the Inspector's ability to verify context and trigger targeted recovery. Experiments show that PRISMA achieves state-of-the-art performance on ten benchmarks and can be deployed efficiently in real-world scenarios.

0 Citations
0 Influential
9.5 Altmetric
47.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!