2601.21208v1 Jan 29, 2026 cs.AI

언제 더 검색해야 할까: 강화학습을 이용한 적응형 복잡 질의 최적화

When should I search more: Adaptive Complex Query Optimization with Reinforcement Learning

Wei Wen
Wei Wen
Citations: 49
h-index: 4
Ruizhi Qiao
Ruizhi Qiao
Citations: 41
h-index: 3
Xing Sun
Xing Sun
Citations: 33
h-index: 3
Tianjun Wei
Tianjun Wei
Citations: 13
h-index: 2
Keyu Chen
Keyu Chen
Citations: 9
h-index: 2
Sihang Deng
Sihang Deng
Citations: 4
h-index: 2

질의 최적화는 검색 증강 생성(RAG) 시스템의 효용성을 결정짓는 핵심 요소입니다. 최근 질의 최적화 분야에서 강화학습(RL) 기반의 에이전트 및 추론 방법론이 유망한 방향으로 떠오르고 있지만, 대부분의 기존 접근법은 단일 질의의 확장과 추상화에만 집중하고 있습니다. 그러나 실제 환경에서는 복잡한 사용자 질의가 빈번하게 발생하며, 중의성 해소와 질의 분해를 처리하기 위해 다수의 병렬 및 순차적 검색 전략이 요구되는 경우가 많습니다. 이러한 복잡한 사례에 강화학습을 직접 적용하는 데에는 상당한 난관이 따릅니다. 최적의 하위 질의 개수를 결정하고 검색된 문서를 효과적으로 재순위화 및 병합하는 과정은 탐색 공간을 크게 확장시키고 보상 설계를 복잡하게 만들어, 잦은 학습 불안정성을 초래합니다. 이러한 문제를 해결하기 위해, 본 논문에서는 적응형 복잡 질의 최적화(ACQO)라는 새로운 강화학습 프레임워크를 제안합니다. 이 프레임워크는 검색 과정을 언제, 어떻게 확장할지 적응적으로 결정하도록 설계되었습니다. ACQO는 두 가지 핵심 구성 요소를 포함합니다. 질의를 언제 여러 하위 질의로 분해할지 동적으로 결정하는 적응형 질의 재구성(AQR) 모듈과, 견고한 결과 집계를 보장하고 학습 에이전트에게 안정적인 보상 신호를 제공하는 순위-점수 융합(RSF) 모듈입니다. 또한 학습 불안정성을 완화하기 위해 2단계 전략을 통해 난이도가 높은 질의를 점진적으로 도입하여 학습 과정을 안정화하는 커리큘럼 강화학습(CRL) 방식을 채택했습니다. 포괄적인 실험 결과, ACQO는 세 가지 복잡 질의 벤치마크에서 기존 베이스라인을 크게 상회하며 최고 수준의 성능을 달성했습니다. 아울러 이 프레임워크는 향상된 연산 효율성과 다양한 검색 아키텍처와의 폭넓은 호환성을 입증하여, 차세대 RAG 시스템을 위한 강력하고 일반화 가능한 솔루션임을 보여줍니다.

Original Abstract

Query optimization is a crucial component for the efficacy of Retrieval-Augmented Generation (RAG) systems. While reinforcement learning (RL)-based agentic and reasoning methods have recently emerged as a promising direction on query optimization, most existing approaches focus on the expansion and abstraction of a single query. However, complex user queries are prevalent in real-world scenarios, often requiring multiple parallel and sequential search strategies to handle disambiguation and decomposition. Directly applying RL to these complex cases introduces significant hurdles. Determining the optimal number of sub-queries and effectively re-ranking and merging retrieved documents vastly expands the search space and complicates reward design, frequently leading to training instability. To address these challenges, we propose a novel RL framework called Adaptive Complex Query Optimization (ACQO). Our framework is designed to adaptively determine when and how to expand the search process. It features two core components: an Adaptive Query Reformulation (AQR) module that dynamically decides when to decompose a query into multiple sub-queries, and a Rank-Score Fusion (RSF) module that ensures robust result aggregation and provides stable reward signals for the learning agent. To mitigate training instabilities, we adopt a Curriculum Reinforcement Learning (CRL) approach, which stabilizes the training process by progressively introducing more challenging queries through a two-stage strategy. Our comprehensive experiments demonstrate that ACQO achieves state-of-the-art performance on three complex query benchmarks, significantly outperforming established baselines. The framework also showcases improved computational efficiency and broad compatibility with different retrieval architectures, establishing it as a powerful and generalizable solution for next-generation RAG systems.

0 Citations
0 Influential
2 Altmetric
10.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!