STRIDE: 검색 증강 다중 홉 질문 답변을 위한 전략적 반복적 의사 결정
STRIDE: Strategic Iterative Decision-Making for Retrieval-Augmented Multi-Hop Question Answering
다중 홉 질문 답변(MHQA)은 여러 문서에 분산된 증거를 검색하고 추론하여 복잡한 쿼리에 대한 정확한 답변을 제공합니다. 기존의 MHQA 방법은 주로 반복적인 검색 증강 생성에 의존하며, 다음과 같은 두 가지 주요 문제점을 안고 있습니다. 1) 기존 방법은 근본적인 추론 구조보다는 표면적인 개체에 지나치게 의존하여, 질문 분해 과정이 어휘적 모호성에 매우 취약합니다. 2) 기존 방법은 추론 단계 간의 논리적 의존성을 간과하여, 비정형적인 실행을 초래합니다. 이러한 문제점을 해결하기 위해, 우리는 전략적 계획, 동적 제어, 그리고 근거 있는 실행을 분리하는 프레임워크인 STRIDE를 제안합니다. 핵심적으로, 메타 플래너는 개체에 독립적인 추론 골격을 구축하여 쿼리의 추상적인 논리를 파악하고, 추론 구조가 확립된 후에 개체 연결을 수행함으로써, 조기 어휘적 확정으로 인한 모호성 오류를 완화합니다. 또한, 감독자는 하위 질문 실행을 의존성 기반 방식으로 조율하여, 가능한 경우 효율적인 병렬 처리를 가능하게 하고, 필요한 경우 순차적인 조정을 수행합니다. STRIDE는 새로운 증거를 검색할지 기존 사실로부터 추론할지를 동적으로 결정하여, 불필요한 쿼리를 피하고 오류 전파를 방지하며, 동시에 여러 분기 간의 정보를 융합하고 실패한 쿼리를 재구성하여 견고성을 향상시킵니다. 근거 있는 사실 추출 및 논리적 추론은 전문화된 실행 모듈에 위임하여, 검색과 추론의 명시적인 분리를 통해 신뢰성을 보장합니다. 또한, STRIDE는 STRIDE에서 생성된 자체 실행 경로를 활용하는 모듈식 미세 조정 프레임워크인 STRIDE-FT를 제안하며, 이는 인간 어노테이션이나 더 강력한 교사 모델을 필요로 하지 않습니다. 실험 결과, STRIDE는 견고하고 정확한 추론을 달성하며, STRIDE-FT는 오픈 소스 LLM을 효과적으로 향상시키는 것으로 나타났습니다.
Multi-hop question answering (MHQA) enables accurate answers to complex queries by retrieving and reasoning over evidence dispersed across multiple documents. Existing MHQA approaches mainly rely on iterative retrieval-augmented generation, which suffer from the following two major issues. 1) Existing methods prematurely commit to surface-level entities rather than underlying reasoning structures, making question decomposition highly vulnerable to lexical ambiguity. 2) Existing methods overlook the logical dependencies among reasoning steps, resulting in uncoordinated execution. To address these issues, we propose STRIDE, a framework that separates strategic planning, dynamic control, and grounded execution. At its core, a Meta-Planner first constructs an entity-agnostic reasoning skeleton to capture the abstract logic of the query, thereby deferring entity grounding until after the reasoning structure is established, which mitigates disambiguation errors caused by premature lexical commitment. A Supervisor then orchestrates sub-question execution in a dependency-aware manner, enabling efficient parallelization where possible and sequential coordination when necessary. By dynamically deciding whether to retrieve new evidence or infer from existing facts, it avoids redundant queries and error propagation, while fusing cross-branch information and reformulating failed queries to enhance robustness. Grounded fact extraction and logical inference are delegated to specialized execution modules, ensuring faithfulness through explicit separation of retrieval and reasoning. We further propose STRIDE-FT, a modular fine-tuning framework that uses self-generated execution trajectories from STRIDE, requiring neither human annotations nor stronger teacher models. Experiments show that STRIDE achieves robust and accurate reasoning, while STRIDE-FT effectively enhances open-source LLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.