SCOUT-RAG: 분산 도메인 상의 에이전트 기반 Graph-RAG를 위한 확장 가능하고 비용 효율적인 통합 순회
SCOUT-RAG: Scalable and Cost-Efficient Unifying Traversal for Agentic Graph-RAG over Distributed Domains
Graph-RAG는 구조화된 지식을 활용하여 LLM의 추론 능력을 향상시키지만, 기존의 설계들은 중앙집중식 지식 그래프에 의존하는 경향이 있습니다. 병원이나 다국적 기업과 같이 분산되고 접근이 제한된 환경에서는 전체 그래프에 대한 가시성이나 소모적인 쿼리 없이 관련 도메인과 적절한 순회 깊이를 선택하여 검색을 수행해야 합니다. 이러한 문제를 해결하기 위해, 우리는 점진적인 효용 목표에 따라 교차 도메인 검색을 수행하는 분산 에이전트 기반 Graph-RAG 프레임워크인 SCOUT-RAG(Scalable and Cost-Efficient Unifying Traversal)를 소개합니다. SCOUT-RAG는 (i) 도메인 관련성 추정, (ii) 추가 도메인으로의 검색 확장 시점 결정, (iii) 불필요한 그래프 탐색 방지를 위한 순회 깊이 조절, (iv) 고품질 답변 합성을 수행하는 네 가지 협력 에이전트를 활용합니다. 이 프레임워크는 지연 시간과 API 비용을 제어하면서 유용한 도메인 정보를 놓치는 것으로 정의되는 '검색 후회(retrieval regret)'를 최소화하도록 설계되었습니다. 다중 도메인 지식 환경에서 SCOUT-RAG는 교차 도메인 호출, 총 처리 토큰 수, 지연 시간을 대폭 줄이면서도 DRIFT 및 전체 도메인 순회를 포함한 중앙집중식 기준 모델들과 대등한 성능을 달성했습니다.
Graph-RAG improves LLM reasoning using structured knowledge, yet conventional designs rely on a centralized knowledge graph. In distributed and access-restricted settings (e.g., hospitals or multinational organizations), retrieval must select relevant domains and appropriate traversal depth without global graph visibility or exhaustive querying. To address this challenge, we introduce \textbf{SCOUT-RAG} (\textit{\underline{S}calable and \underline{CO}st-efficient \underline{U}nifying \underline{T}raversal}), a distributed agentic Graph-RAG framework that performs progressive cross-domain retrieval guided by incremental utility goals. SCOUT-RAG employs four cooperative agents that: (i) estimate domain relevance, (ii) decide when to expand retrieval to additional domains, (iii) adapt traversal depth to avoid unnecessary graph exploration, and (iv) synthesize the high-quality answers. The framework is designed to minimize retrieval regret, defined as missing useful domain information, while controlling latency and API cost. Across multi-domain knowledge settings, SCOUT-RAG achieves performance comparable to centralized baselines, including DRIFT and exhaustive domain traversal, while substantially reducing cross-domain calls, total tokens processed, and latency.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.