2601.19825v1 Jan 27, 2026 cs.AI

엔터프라이즈 데이터베이스로의 최종 사용자 질의 라우팅

Routing End User Queries to Enterprise Databases

Manasi S. Patwardhan

Citations: 343

h-index: 11

L. Vig

Citations: 6,880

h-index: 31

Ashwin Srinivasan

Citations: 0

h-index: 0

T. Verlekar

Citations: 249

h-index: 9

S. Sudarshan

Citations: 39

h-index: 3

Tanay Kulkarni

Citations: 4

h-index: 1

우리는 다중 데이터베이스 엔터프라이즈 환경에서 자연어 질의를 라우팅하는 작업을 다룬다. 우리는 기존 NL-to-SQL 데이터셋을 확장하여 현실적인 벤치마크를 구축한다. 본 연구는 도메인이 중첩되는 대규모 DB 저장소와 모호한 질의로 인해 라우팅이 점점 더 어려워짐을 보여주며, 이에 따라 더 구조적이고 견고한 추론 기반 솔루션의 필요성을 제기한다. 스키마 커버리지, 구조적 연결성, 그리고 세밀한 의미적 정렬을 명시적으로 모델링함으로써, 제안된 모듈형 추론 주도 재순위화 전략은 모든 평가지표에서 임베딩 전용 모델 및 직접적인 LLM 프롬프팅 베이스라인 성능을 일관되게 상회한다.

Original Abstract

We address the task of routing natural language queries in multi-database enterprise environments. We construct realistic benchmarks by extending existing NL-to-SQL datasets. Our study shows that routing becomes increasingly challenging with larger, domain-overlapping DB repositories and ambiguous queries, motivating the need for more structured and robust reasoning-based solutions. By explicitly modelling schema coverage, structural connectivity, and fine-grained semantic alignment, the proposed modular, reasoning-driven reranking strategy consistently outperforms embedding-only and direct LLM-prompting baselines across all the metrics.

0 Citations

0 Influential

15.5 Altmetric

77.5 Score

Original PDF

AI Analysis

Korean Summary

이 논문은 기업 환경에서 사용자의 자연어 질의를 적절한 데이터베이스(DB)로 연결하는 'DB 라우팅' 문제를 다룹니다. 저자들은 기존 벤치마크의 데이터 불균형과 비현실성을 지적하며, 더 현실적이고 강력한 벤치마크인 'Spider-Route'와 'Bird-Route'를 새롭게 구축했습니다. 핵심적으로 제안하는 방법론은 학습이 필요 없는 '모듈형 추론 기반 재순위화(Modular Reasoning-Driven Re-ranking)' 전략입니다. 이 방식은 단순히 임베딩 유사도나 LLM의 직관에 의존하는 대신, 질의 내 구문을 DB 스키마 엔티티와 매핑하고, 테이블 간의 조인(Join) 가능성(구조적 연결성)을 알고리즘적으로 검증하며, 세밀한 의미 정렬을 수행합니다. 실험 결과, 이 접근 방식은 도메인이 겹치거나 모호한 질의가 많은 환경에서도 기존의 임베딩 기반 검색이나 직접적인 LLM 프롬프팅 방식보다 우수한 성능(Recall 및 mAP 향상)을 달성했습니다.

Key Innovations

기존 데이터셋(Spider, BirdSQL)을 확장하여 현실적인 DB 라우팅 벤치마크(Spider-Route, Bird-Route) 구축 및 50:50 쿼리 분할을 통한 공정한 평가 설정 도입
LLM을 활용한 질의 구문-스키마 엔티티 간의 명시적 매핑(Phrase-Schema Entity Mapping) 및 스키마 커버리지 분석
DB 스키마의 인접 리스트(Adjacency List)와 그래프 탐색(BFS)을 활용한 알고리즘적 구조적 연결성(Connectivity) 검증 도입
복잡한 추론을 '매핑', '연결성 검증', '점수 산출'의 하위 작업으로 분해하여 LLM의 환각을 줄이는 모듈형 파이프라인 설계
빈번한 스키마 변경에 유연하게 대응할 수 있는 학습이 필요 없는(Training-free) 접근 방식

Learning & Inference Impact

학습 측면에서 이 방법론은 'Training-free' 방식을 채택하여, DB 스키마가 자주 변경되거나 새로운 DB가 추가되는 엔터프라이즈 환경에서도 별도의 파인튜닝 없이 즉시 적용 가능하므로 유지보수 비용을 크게 절감합니다. 추론 측면에서는 임베딩을 이용한 1차 검색(Retrieval)으로 후보 DB를 추린 후, LLM과 알고리즘을 결합한 2차 재순위화(Re-ranking)를 수행합니다. 재순위화 단계에서 LLM은 복잡한 전체 판단 대신 구문 추출과 같은 단순화된 작업에 집중하고, 논리적 검증(테이블 연결성 등)은 알고리즘이 담당하여 추론의 정확도와 설명 가능성을 높였습니다. DB의 구조 정보(인접 리스트)는 사전에 한 번만 계산하면 되므로 추론 효율성을 유지합니다.

Technical Difficulty

중급

Estimated implementation complexity based on methodology.

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!