Dep-Search: 지속적인 메모리를 활용한 의존성 기반 추론 경로 학습
Dep-Search: Learning Dependency-Aware Reasoning Traces with Persistent Memory
대규모 언어 모델(LLM)은 특히 외부 지식 베이스를 체계적으로 탐색할 수 있는 검색 메커니즘과 결합될 때 복잡한 추론 작업에서 놀라운 능력을 보여주었습니다. 이 분야는 전통적인 검색 증강 생성(RAG) 프레임워크에서 시작하여, 명시적인 검색 전략을 통해 다단계 추론을 조율하는 더욱 정교한 검색 기반 프레임워크로 발전해 왔습니다. 그러나 기존 검색 프레임워크는 여전히 검색 전략을 결정하고 추론 단계에서 검색된 정보를 활용하는 방법에 대한 암시적 자연어 추론에 크게 의존합니다. 이러한 암시적 추론에 대한 의존성은 하위 질문 간의 의존성을 관리하고, 이전에 검색된 지식을 효율적으로 재사용하고, 강화 학습을 통해 최적의 검색 전략을 학습하는 데 근본적인 과제를 야기합니다. 이러한 제한 사항을 해결하기 위해, 우리는 구조화된 추론, 검색 및 지속적인 메모리를 GRPO를 통해 통합하여 기존 검색 프레임워크를 뛰어넘는 의존성 기반 검색 프레임워크인 Dep-Search를 제안합니다. Dep-Search는 모델이 의존성 관계가 있는 질문을 분해하고, 필요에 따라 정보를 검색하고, 메모리에서 이전에 저장된 지식에 액세스하고, 긴 추론 컨텍스트를 재사용 가능한 메모리 항목으로 요약할 수 있도록 하는 명시적인 제어 메커니즘을 도입합니다. 우리는 일곱 개의 다양한 질문 답변 데이터 세트에 대한 광범위한 실험을 통해 Dep-Search가 LLM이 복잡한 다중 홉 추론 작업을 수행하는 능력을 크게 향상시키며, 다양한 모델 크기에서 강력한 기준 모델보다 상당한 성능 향상을 달성한다는 것을 보여줍니다.
Large Language Models (LLMs) have demonstrated remarkable capabilities in complex reasoning tasks, particularly when augmented with search mechanisms that enable systematic exploration of external knowledge bases. The field has evolved from traditional retrieval-augmented generation (RAG) frameworks to more sophisticated search-based frameworks that orchestrate multi-step reasoning through explicit search strategies. However, existing search frameworks still rely heavily on implicit natural language reasoning to determine search strategies and how to leverage retrieved information across reasoning steps. This reliance on implicit reasoning creates fundamental challenges for managing dependencies between sub-questions, efficiently reusing previously retrieved knowledge, and learning optimal search strategies through reinforcement learning. To address these limitations, we propose Dep-Search, a dependency-aware search framework that advances beyond existing search frameworks by integrating structured reasoning, retrieval, and persistent memory through GRPO. Dep-Search introduces explicit control mechanisms that enable the model to decompose questions with dependency relationships, retrieve information when needed, access previously stored knowledge from memory, and summarize long reasoning contexts into reusable memory entries. Through extensive experiments on seven diverse question answering datasets, we demonstrate that Dep-Search significantly enhances LLMs' ability to tackle complex multi-hop reasoning tasks, achieving substantial improvements over strong baselines across different model scales.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.