SQL-ASTRA: 컬럼 집합 매칭 및 경로 집계 기반 에이전트 기반 SQL에서의 희소 피드백 완화
SQL-ASTRA: Alleviating Sparse Feedback in Agentic SQL via Column-Set Matching and Trajectory Aggregation
에이전트 기반 강화 학습(RL)은 복잡한 작업에 대한 가능성을 보여주지만, 텍스트-SQL은 주로 단일 턴 방식으로 제한됩니다. 주요 병목 현상은 보상 할당 문제입니다. 기존 방식에서는 보상이 최종 턴의 피드백에만 의존하여 중간 과정을 무시하고, 이는 모호한 보상 평가로 이어집니다. 이를 해결하기 위해, 우리는 효과적인 경로 수준 평가 및 밀집된 단계별 신호를 제공하도록 설계된, 보편적인 2단계 보상 메커니즘을 특징으로 하는 에이전트 기반 SQL 프레임워크를 제안합니다. 첫째, 우리는 다중 턴 보상 할당 문제를 해결하기 위해 집계된 경로 보상(ATR)을 도입합니다. 비대칭 전이 행렬을 사용하여 ATR은 프로세스 지향적인 점수를 집계하여 지속적인 개선을 장려합니다. Lyapunov 안정성 이론을 활용하여, ATR이 에너지 소산 연산자 역할을 하여 순환이 없는 정책과 단조적인 수렴을 보장함을 증명합니다. 둘째, 컬럼 집합 매칭 보상(CSMR)은 즉각적인 단계별 보상을 제공하여 희소성을 완화합니다. 각 단계에서 쿼리를 실행하여, CSMR은 이진(0/1) 피드백을 부분 정확성을 기반으로 밀집된 [0, 1] 신호로 변환합니다. BIRD 데이터셋에 대한 평가 결과, CSMR은 이진 보상을 사용하는 GRPO보다 5% 향상된 성능을 보였습니다. 주목할 점은, 동일한 모델을 사용하여 우리의 접근 방식이 BIRD 및 Spider 2.0 데이터셋에서 SOTA Arctic-Text2SQL-R1-7B 모델보다 우수한 성능을 보이며, 텍스트-SQL을 견고한 다중 턴 에이전트 패러다임으로 발전시킵니다.
Agentic Reinforcement Learning (RL) shows promise for complex tasks, but Text-to-SQL remains mostly restricted to single-turn paradigms. A primary bottleneck is the credit assignment problem. In traditional paradigms, rewards are determined solely by the final-turn feedback, which ignores the intermediate process and leads to ambiguous credit evaluation. To address this, we propose Agentic SQL, a framework featuring a universal two-tiered reward mechanism designed to provide effective trajectory-level evaluation and dense step-level signals. First, we introduce Aggregated Trajectory Reward (ATR) to resolve multi-turn credit assignment. Using an asymmetric transition matrix, ATR aggregates process-oriented scores to incentivize continuous improvement. Leveraging Lyapunov stability theory, we prove ATR acts as an energy dissipation operator, guaranteeing a cycle-free policy and monotonic convergence. Second, Column-Set Matching Reward (CSMR) provides immediate step-level rewards to mitigate sparsity. By executing queries at each turn, CSMR converts binary (0/1) feedback into dense [0, 1] signals based on partial correctness. Evaluations on BIRD show a 5% gain over binary-reward GRPO. Notably, our approach outperforms SOTA Arctic-Text2SQL-R1-7B on BIRD and Spider 2.0 using identical models, propelling Text-to-SQL toward a robust multi-turn agent paradigm.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.