2603.16448v1 Mar 17, 2026 cs.AI

TRUST-SQL: 도구 통합 다중 턴 강화 학습을 이용한 스키마 불명 환경에서의 텍스트-SQL 변환

TRUST-SQL: Tool-Integrated Multi-Turn Reinforcement Learning for Text-to-SQL over Unknown Schemas

Kevin I-Kai Wang
Kevin I-Kai Wang
Citations: 0
h-index: 0
Ke Zeng
Ke Zeng
Citations: 35
h-index: 3
Xunliang Cai
Xunliang Cai
Citations: 35
h-index: 3
Ai Jian
Ai Jian
Citations: 6
h-index: 2
Jingqing Ruan
Jingqing Ruan
Citations: 46
h-index: 3
Weipeng Zhang
Weipeng Zhang
Citations: 46
h-index: 4
Wanrou Du
Wanrou Du
Citations: 0
h-index: 0
Jiangbo Pei
Jiangbo Pei
Citations: 121
h-index: 4

텍스트-SQL 변환은 전체 스키마 가정 하에서 상당한 발전을 이루었습니다. 그러나 실제 기업 환경에서는 수백 개의 테이블과 방대한 양의 노이즈가 포함된 메타데이터가 있는 경우가 많으므로 이러한 가정은 현실에서 실패합니다. 본 논문에서는 전체 스키마를 미리 제공하는 대신, 에이전트가 관련 데이터의 부분 집합을 적극적으로 식별하고 검증해야 하는 '스키마 불명' 시나리오를 다룹니다. 이러한 문제를 해결하기 위해, 우리는 'TRUST-SQL (스키마 불명 환경에서의 진실성 기반 추론 도구)'을 제안합니다. 우리는 이 작업을 부분 관측 마르코프 결정 프로세스로 공식화하고, 자율 에이전트가 검증된 메타데이터를 기반으로 추론할 수 있도록 구조화된 4단계 프로토콜을 사용합니다. 특히, 이 프로토콜은 우리의 새로운 Dual-Track GRPO 전략을 위한 구조적 경계를 제공합니다. 토큰 수준의 마스킹된 장점을 활용하여, 이 전략은 탐색 보상을 실행 결과와 분리하여 신용 할당 문제를 해결하고, 표준 GRPO보다 9.9%의 상대적인 성능 향상을 달성합니다. 5개의 벤치마크를 대상으로 실시한 광범위한 실험 결과, TRUST-SQL은 4B 및 8B 모델의 기본 모델에 비해 각각 평균 절대 성능이 30.6% 및 16.6% 향상되었습니다. 주목할 만한 점은, 우리의 프레임워크는 미리 로드된 메타데이터 없이 작동하면서도, 스키마 프리필링에 의존하는 강력한 기준 모델과 일치하거나 능가하는 성능을 꾸준히 보여줍니다.

Original Abstract

Text-to-SQL parsing has achieved remarkable progress under the Full Schema Assumption. However, this premise fails in real-world enterprise environments where databases contain hundreds of tables with massive noisy metadata. Rather than injecting the full schema upfront, an agent must actively identify and verify only the relevant subset, giving rise to the Unknown Schema scenario we study in this work. To address this, we propose TRUST-SQL (Truthful Reasoning with Unknown Schema via Tools). We formulate the task as a Partially Observable Markov Decision Process where our autonomous agent employs a structured four-phase protocol to ground reasoning in verified metadata. Crucially, this protocol provides a structural boundary for our novel Dual-Track GRPO strategy. By applying token-level masked advantages, this strategy isolates exploration rewards from execution outcomes to resolve credit assignment, yielding a 9.9% relative improvement over standard GRPO. Extensive experiments across five benchmarks demonstrate that TRUST-SQL achieves an average absolute improvement of 30.6% and 16.6% for the 4B and 8B variants respectively over their base models. Remarkably, despite operating entirely without pre-loaded metadata, our framework consistently matches or surpasses strong baselines that rely on schema prefilling.

0 Citations
0 Influential
2 Altmetric
10.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!