엔터프라이즈 데이터베이스로의 최종 사용자 질의 라우팅
Routing End User Queries to Enterprise Databases
우리는 다중 데이터베이스 엔터프라이즈 환경에서 자연어 질의를 라우팅하는 작업을 다룬다. 우리는 기존 NL-to-SQL 데이터셋을 확장하여 현실적인 벤치마크를 구축한다. 본 연구는 도메인이 중첩되는 대규모 DB 저장소와 모호한 질의로 인해 라우팅이 점점 더 어려워짐을 보여주며, 이에 따라 더 구조적이고 견고한 추론 기반 솔루션의 필요성을 제기한다. 스키마 커버리지, 구조적 연결성, 그리고 세밀한 의미적 정렬을 명시적으로 모델링함으로써, 제안된 모듈형 추론 주도 재순위화 전략은 모든 평가지표에서 임베딩 전용 모델 및 직접적인 LLM 프롬프팅 베이스라인 성능을 일관되게 상회한다.
We address the task of routing natural language queries in multi-database enterprise environments. We construct realistic benchmarks by extending existing NL-to-SQL datasets. Our study shows that routing becomes increasingly challenging with larger, domain-overlapping DB repositories and ambiguous queries, motivating the need for more structured and robust reasoning-based solutions. By explicitly modelling schema coverage, structural connectivity, and fine-grained semantic alignment, the proposed modular, reasoning-driven reranking strategy consistently outperforms embedding-only and direct LLM-prompting baselines across all the metrics.
AI Analysis
Korean Summary
Key Innovations
- 기존 데이터셋(Spider, BirdSQL)을 확장하여 현실적인 DB 라우팅 벤치마크(Spider-Route, Bird-Route) 구축 및 50:50 쿼리 분할을 통한 공정한 평가 설정 도입
- LLM을 활용한 질의 구문-스키마 엔티티 간의 명시적 매핑(Phrase-Schema Entity Mapping) 및 스키마 커버리지 분석
- DB 스키마의 인접 리스트(Adjacency List)와 그래프 탐색(BFS)을 활용한 알고리즘적 구조적 연결성(Connectivity) 검증 도입
- 복잡한 추론을 '매핑', '연결성 검증', '점수 산출'의 하위 작업으로 분해하여 LLM의 환각을 줄이는 모듈형 파이프라인 설계
- 빈번한 스키마 변경에 유연하게 대응할 수 있는 학습이 필요 없는(Training-free) 접근 방식
Learning & Inference Impact
학습 측면에서 이 방법론은 'Training-free' 방식을 채택하여, DB 스키마가 자주 변경되거나 새로운 DB가 추가되는 엔터프라이즈 환경에서도 별도의 파인튜닝 없이 즉시 적용 가능하므로 유지보수 비용을 크게 절감합니다. 추론 측면에서는 임베딩을 이용한 1차 검색(Retrieval)으로 후보 DB를 추린 후, LLM과 알고리즘을 결합한 2차 재순위화(Re-ranking)를 수행합니다. 재순위화 단계에서 LLM은 복잡한 전체 판단 대신 구문 추출과 같은 단순화된 작업에 집중하고, 논리적 검증(테이블 연결성 등)은 알고리즘이 담당하여 추론의 정확도와 설명 가능성을 높였습니다. DB의 구조 정보(인접 리스트)는 사전에 한 번만 계산하면 되므로 추론 효율성을 유지합니다.
Technical Difficulty
Estimated implementation complexity based on methodology.