2602.10387v1 Feb 11, 2026 cs.DB

LLM 진화적 샘플링을 활용한 데이터베이스 성능 향상

Making Databases Faster with LLM Evolutionary Sampling

Federico Bianchi
Federico Bianchi
Citations: 438
h-index: 9
James Zou
James Zou
Citations: 185
h-index: 5
Mehmet Hamza Erol
Mehmet Hamza Erol
Citations: 83
h-index: 3
C. Greco
C. Greco
Citations: 503
h-index: 10
Jacopo Tagliabue
Jacopo Tagliabue
Citations: 447
h-index: 11
Xiangpeng Hao
Xiangpeng Hao
Citations: 22
h-index: 2

기존의 쿼리 최적화는 사전에 정의된 휴리스틱과 통계 모델을 사용하여 실행 비용(예: 실행 시간, 메모리, I/O)을 추정하는 비용 기반 최적화기를 사용합니다. 이러한 휴리스틱을 개선하는 데는 상당한 엔지니어링 노력이 필요하며, 구현되더라도 이러한 휴리스틱은 종종 쿼리와 스키마의 의미적 상관관계를 고려할 수 없어 더 나은 물리적 계획을 수립하는 데 어려움을 겪습니다. 저희는 DataFusion 엔진을 위한 DBPlanBench 환경을 사용하여 물리적 계획을 압축된 직렬화된 표현으로 노출하고, LLM이 제안하는 국소적인 수정 사항을 적용하고 실행합니다. 그런 다음 이러한 수정 사항에 대한 진화적 검색을 수행하여 여러 반복을 통해 후보를 개선합니다. 저희의 핵심 아이디어는 LLM이 의미적 지식을 활용하여 중간 데이터 크기를 최소화하는 조인 순서와 같이 명백하지 않은 최적화를 식별하고 적용할 수 있다는 것입니다. 일부 쿼리에서 최대 4.78배의 성능 향상을 얻었으며, 작은 데이터베이스에서 발견된 최적화가 더 큰 데이터베이스로 효과적으로 이전될 수 있는 작은 규모부터 큰 규모까지의 워크플로우를 보여줍니다.

Original Abstract

Traditional query optimization relies on cost-based optimizers that estimate execution cost (e.g., runtime, memory, and I/O) using predefined heuristics and statistical models. Improving these heuristics requires substantial engineering effort, and even when implemented, these heuristics often cannot take into account semantic correlations in queries and schemas that could enable better physical plans. Using our DBPlanBench harness for the DataFusion engine, we expose the physical plan through a compact serialized representation and let the LLM propose localized edits that can be applied and executed. We then apply an evolutionary search over these edits to refine candidates across iterations. Our key insight is that LLMs can leverage semantic knowledge to identify and apply non-obvious optimizations, such as join orderings that minimize intermediate cardinalities. We obtain up to 4.78$\times$ speedups on some queries and we demonstrate a small-to-large workflow in which optimizations found on small databases transfer effectively to larger databases.

0 Citations
0 Influential
5.5 Altmetric
27.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!