SQL-Trail: 텍스트-SQL을 위한 교차 피드백 기반 멀티 턴 강화학습
SQL-Trail: Multi-Turn Reinforcement Learning with Interleaved Feedback for Text-to-SQL
대규모 언어 모델(LLM)이 텍스트-SQL 생성 성능을 크게 향상시켰지만, BIRD-SQL과 같은 고난도 벤치마크에서는 여전히 AI 시스템과 인간 전문가 사이에 뚜렷한 격차가 존재합니다. 우리는 이러한 격차가 주로 인간이 자연스럽게 수행하는 반복적 추론, 스키마 탐색, 오류 수정 행동이 결여된 기존의 단일 패스(single-pass) 패러다임에서 기인한다고 주장합니다. 이러한 한계를 해결하기 위해, 우리는 텍스트-SQL을 위한 멀티 턴 강화학습(RL) 에이전트 프레임워크인 SQL-Trail을 소개합니다. SQL-Trail은 쿼리를 한 번에 생성하는 대신, 데이터베이스 환경과 상호작용하고 실행 피드백을 활용하여 예측을 반복적으로 정제합니다. 우리의 접근 방식은 두 가지 핵심 아이디어를 중심으로 합니다. (i) 질문의 난이도에 맞춰 에이전트의 상호작용 깊이를 조절하는 적응형 턴 예산 할당 메커니즘, (ii) SQL의 정확성과 효율적인 탐색을 동시에 장려하는 복합 보상 패널입니다. 여러 벤치마크에서 SQL-Trail은 새로운 최고 성능(SOTA)을 달성했으며, 기존의 단일 패스 RL 최고 성능 방법보다 최대 18배 높은 강력한 데이터 효율성을 보여줍니다. 특히, 우리의 7B 및 14B 모델은 훨씬 더 큰 독점 시스템보다 평균 5% 더 우수한 성능을 보여주며, 이는 견고한 텍스트-SQL 생성을 위한 대화형 에이전트 워크플로우의 유효성을 강조합니다.
While large language models (LLMs) have substantially improved Text-to-SQL generation, a pronounced gap remains between AI systems and human experts on challenging benchmarks such as BIRD-SQL. We argue this gap stems largely from the prevailing single-pass paradigm, which lacks the iterative reasoning, schema exploration, and error-correction behaviors that humans naturally employ. To address this limitation, we introduce SQL-Trail, a multi-turn reinforcement learning (RL) agentic framework for Text-to-SQL. Rather than producing a query in one shot, SQL-Trail interacts with the database environment and uses execution feedback to iteratively refine its predictions. Our approach centers on two key ideas: (i) an adaptive turn-budget allocation mechanism that scales the agent's interaction depth to match question difficulty, and (ii) a composite reward panel that jointly incentivizes SQL correctness and efficient exploration. Across benchmarks, SQL-Trail sets a new state of the art and delivers strong data efficiency--up to 18x higher than prior single-pass RL state-of-the-art methods. Notably, our 7B and 14B models outperform substantially larger proprietary systems by 5% on average, underscoring the effectiveness of interactive, agentic workflows for robust Text-to-SQL generation.
AI Analysis
Korean Summary
Key Innovations
- 실행 피드백을 활용하여 반복적으로 쿼리를 수정하는 멀티 턴 강화학습(RL) 에이전트 프레임워크
- 문제의 난이도에 맞춰 에이전트의 상호작용 깊이를 자동으로 조절하는 적응형 턴 예산(Adaptive Turn-Budget) 할당 메커니즘
- 실행 정확성, 턴 효율성, 구문 타당성, 스키마 연결 등을 종합적으로 평가하는 룰 기반의 복합 보상 패널(Composite Reward Panel)
- 탐색적 롤아웃(Exploratory Rollout)을 장려하기 위해 상한 클리핑 범위를 확장한 수정된 GRPO(Clip-Higher GRPO) 알고리즘
- SFT(지도 미세 조정)와 RL을 결합한 2단계 학습 파이프라인을 통해 소량의 데이터로 높은 일반화 성능 달성
Learning & Inference Impact
학습 과정에서 모델은 SFT를 통해 기본적인 도구 사용법을 익힌 뒤, RL 단계에서 실행 피드백을 기반으로 스스로 오류를 수정하고 효율적인 경로를 찾도록 최적화됩니다. 특히 '적응형 턴 예산' 보상은 쉬운 문제는 빠르게, 어려운 문제는 충분한 탐색을 거쳐 풀도록 유도하여 과도한 추론이나 불충분한 탐색을 방지합니다. 추론 시에는 단발성 생성에 그치지 않고, 생성된 SQL을 가상 환경에서 실행해보고(Action), 그 결과(Observation)를 바탕으로 쿼리를 수정하거나 스키마를 다시 조회하는 ReAct 스타일의 반복적 추론을 수행하여 복잡한 데이터베이스 구조와 모호한 질문에 대한 대응력을 크게 향상시킵니다.
Technical Difficulty
Estimated implementation complexity based on methodology.