SPARC-RAG: 컨텍스트 관리를 통한 적응적 순차-병렬 확장: 검색 증강 생성 모델
SPARC-RAG: Adaptive Sequential-Parallel Scaling with Context Management for Retrieval-Augmented Generation
검색 증강 생성(RAG)은 대규모 언어 모델의 출력을 외부 증거를 기반으로 생성하지만, 긴 추론 과정을 필요로 하는 다중 홉 질문 응답에는 여전히 어려움을 겪습니다. 최근 연구에서는 추론 시점에 RAG을 두 가지 상호 보완적인 방식으로 확장합니다. 첫째, 반복적인 개선을 위한 순차적 깊이, 둘째, 범위 확장을 위한 병렬 폭입니다. 그러나 단순한 확장은 컨텍스트 오염과 확장 효율성 저하를 초래하며, 계산량이 증가하더라도 성능 향상이 미미하거나 오히려 감소할 수 있습니다. 이러한 한계를 해결하기 위해, 우리는 통일된 컨텍스트 관리 메커니즘 하에서 순차적 및 병렬 추론 시간 확장을 조율하는 다중 에이전트 프레임워크인 SPARC-RAG을 제안합니다. SPARC-RAG은 공유된 글로벌 컨텍스트를 유지하고 확장 프로세스에 대한 명시적인 제어를 제공하는 특수 에이전트를 사용합니다. 각 분기에서 다양한 병렬 탐색을 가능하게 하는 목표 지향적인 보완적 하위 쿼리를 생성하고, 답변 정확도와 증거 기반을 기준으로 종료 결정을 명시적으로 규제합니다. 또한, 프로세스 수준에서 검증 가능한 선호도를 갖는 경량 미세 조정 방법을 도입하여 순차적 확장의 효율성과 병렬 확장의 효과를 최적화했습니다. 단일 및 다중 홉 질문 응답 벤치마크에서 SPARC-RAG은 기존 RAG 모델보다 일관되게 우수한 성능을 보이며, 평균 +6.2의 F1 점수 향상을 달성하면서 추론 비용을 낮췄습니다.
Retrieval-Augmented Generation (RAG) grounds large language model outputs in external evidence, but remains challenged on multi-hop question answering that requires long reasoning. Recent works scale RAG at inference time along two complementary dimensions: sequential depth for iterative refinement and parallel width for coverage expansion. However, naive scaling causes context contamination and scaling inefficiency, leading to diminishing or negative returns despite increased computation. To address these limitations, we propose SPARC-RAG, a multi-agent framework that coordinates sequential and parallel inference-time scaling under a unified context management mechanism. SPARC-RAG employs specialized agents that maintain a shared global context and provide explicit control over the scaling process. It generates targeted, complementary sub-queries for each branch to enable diverse parallel exploration, and explicitly regulates exiting decisions based on answer correctness and evidence grounding. To optimize scaling behavior, we further introduce a lightweight fine-tuning method with process-level verifiable preferences, which improves the efficiency of sequential scaling and effectiveness of parallel scaling. Across single- and multi-hop QA benchmarks, SPARC-RAG consistently outperforms previous RAG baselines, yielding an average +6.2 F1 improvement under lower inference cost.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.