2603.10697v1 Mar 11, 2026 cs.DB

EvoSchema: 스키마 진화에 대한 텍스트-SQL 모델의 견고성 향상을 위한 연구

EvoSchema: Towards Text-to-SQL Robustness Against Schema Evolution

Huan Sun
Huan Sun
Citations: 16
h-index: 2
Tianshu Zhang
Tianshu Zhang
Citations: 323
h-index: 4
Kun Qian
Kun Qian
Citations: 11
h-index: 2
Siddhartha Sahai
Siddhartha Sahai
Citations: 13
h-index: 2
Yuan Tian
Yuan Tian
Citations: 109
h-index: 6
Shaddy Garg
Shaddy Garg
Citations: 46
h-index: 4
Yunyao Li
Yunyao Li
Citations: 74
h-index: 3

자연어 질문(NLQ)을 데이터베이스 스키마를 기반으로 SQL 쿼리로 변환하는 신경망 기반 텍스트-SQL 모델은 뛰어난 성능을 보여왔습니다. 그러나 데이터베이스 스키마는 종종 새로운 요구 사항을 충족하기 위해 진화하며, 이러한 스키마 진화는 정적 스키마로 훈련된 모델의 성능 저하를 초래할 수 있습니다. 기존 연구는 주로 NLQ, DB 및 SQL 간의 구문 또는 의미 매핑을 단순하게 재구성하는 데 집중하거나, 스키마 진화 하에서 모델의 견고성 문제를 종합적이고 제어 가능한 방식으로 조사할 수 있는 방법을 제공하지 못하며, 이는 현실 세계에서 점점 더 복잡하고 풍부해지는 데이터베이스 스키마 변화에 직면할 때 충분하지 않습니다. 이러한 스키마 진화의 문제를 해결하기 위해, 우리는 실제 스키마 변경에 따른 텍스트-SQL 시스템의 견고성을 평가하고 향상시키기 위해 설계된 종합적인 벤치마크인 EvoSchema를 제시합니다. EvoSchema는 열 수준 및 테이블 수준 수정에 걸쳐 열 가지 유형의 변경을 포괄하는 새로운 스키마 진화 분류 체계를 도입하여, 데이터베이스 스키마의 동적인 특성을 체계적으로 시뮬레이션합니다. EvoSchema를 통해 다양한 오픈 소스 및 클로즈드 소스 LLM에 대한 심층적인 평가를 수행한 결과, 테이블 수준 변경이 열 수준 변경에 비해 모델 성능에 훨씬 더 큰 영향을 미친다는 것을 확인했습니다. 또한, EvoSchema는 모델 훈련 및 데이터베이스 설계 측면에서 더 강력한 텍스트-SQL 시스템 개발에 영감을 줍니다. EvoSchema의 다양한 스키마 설계로 훈련된 모델은 동일한 질문에 대한 스키마 차이를 구별하도록 강제하여, 오해의 소지가 있는 패턴 학습을 방지하며, 평균적으로 변경되지 않은 데이터로 훈련된 모델보다 훨씬 뛰어난 견고성을 보여줍니다. 이 벤치마크는 모델의 동작에 대한 귀중한 통찰력을 제공하며, 동적이고 실제 환경에서 성공할 수 있는 시스템을 설계하기 위한 방법을 제시합니다.

Original Abstract

Neural text-to-SQL models, which translate natural language questions (NLQs) into SQL queries given a database schema, have achieved remarkable performance. However, database schemas frequently evolve to meet new requirements. Such schema evolution often leads to performance degradation for models trained on static schemas. Existing work either mainly focuses on simply paraphrasing some syntactic or semantic mappings among NLQ, DB and SQL, or lacks a comprehensive and controllable way to investigate the model robustness issue under the schema evolution, which is insufficient when facing the increasingly complex and rich database schema changes in reality, especially in the LLM era. To address the challenges posed by schema evolution, we present EvoSchema, a comprehensive benchmark designed to assess and enhance the robustness of text-to-SQL systems under real-world schema changes. EvoSchema introduces a novel schema evolution taxonomy, encompassing ten perturbation types across columnlevel and table-level modifications, systematically simulating the dynamic nature of database schemas. Through EvoSchema, we conduct an in-depth evaluation spanning different open source and closed-source LLMs, revealing that table-level perturbations have a significantly greater impact on model performance compared to column-level changes. Furthermore, EvoSchema inspires the development of more resilient text-to-SQL systems, in terms of both model training and database design. The models trained on EvoSchema's diverse schema designs can force the model to distinguish the schema difference for the same questions to avoid learning spurious patterns, which demonstrate remarkable robustness compared to those trained on unperturbed data on average. This benchmark offers valuable insights into model behavior and a path forward for designing systems capable of thriving in dynamic, real-world environments.

1 Citations
0 Influential
3 Altmetric
16.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!