2604.12988v1 Apr 14, 2026 cs.DB

ROSE: NL2SQL 평가를 위한 의도 중심 평가 지표

ROSE: An Intent-Centered Evaluation Metric for NL2SQL

Yuyu Luo
Yuyu Luo
Citations: 223
h-index: 9
Boyan Li
Boyan Li
Citations: 541
h-index: 10
Wenqi Pei
Wenqi Pei
Citations: 6
h-index: 1
Shizheng Hou
Shizheng Hou
Citations: 15
h-index: 2
Hanbin Chen
Hanbin Chen
Citations: 1
h-index: 1
Zhichao Shi
Zhichao Shi
School of Advanced Interdisciplinary Sciences, UCAS
Citations: 1,322
h-index: 5

자연어-SQL 변환(NL2SQL) 시스템의 성능을 평가하는 데 널리 사용되는 지표인 실행 정확도(Execution Accuracy, EX)는 점점 더 신뢰성이 떨어지는 경향을 보입니다. EX는 구문 변형에 민감하며, 질문이 여러 해석을 가질 수 있다는 점을 무시하고, 오류가 있는 정답 SQL에 쉽게 오도될 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 예측된 SQL이 질문에 대한 답을 제공하는지 여부에 초점을 맞춘 의도 중심 평가 지표인 ROSE를 소개합니다. ROSE는 참조 의존적 패러다임 하에서 정답 SQL과의 일관성보다는 사용자의 의도에 따라 예측된 SQL의 의미적 정확성을 평가합니다. ROSE는 적대적 Prover-Refuter 방식으로 작동합니다. SQL Prover는 예측된 SQL의 의미적 정확성을 사용자의 의도와 독립적으로 평가하고, Adversarial Refuter는 정답 SQL을 증거로 사용하여 이러한 판단에 도전하고 개선합니다. 당사가 구축한 전문가 검증 데이터셋 ROSE-VEC에서 ROSE는 인간 전문가와의 일치도가 가장 높으며, 차순위 지표보다 Cohen's Kappa 값으로 약 24% 더 높은 성능을 보입니다. 또한, 19개의 NL2SQL 방법론에 대한 대규모 재평가를 수행하여 네 가지 중요한 통찰력을 얻었습니다. 우리는 더 신뢰할 수 있는 NL2SQL 연구를 촉진하기 위해 ROSE와 ROSE-VEC 데이터셋을 공개합니다.

Original Abstract

Execution Accuracy (EX), the widely used metric for evaluating the effectiveness of Natural Language to SQL (NL2SQL) solutions, is becoming increasingly unreliable. It is sensitive to syntactic variation, ignores that questions may admit multiple interpretations, and is easily misled by erroneous ground-truth SQL. To address this, we introduce ROSE, an intent-centered metric that focuses on whether the predicted SQL answers the question, rather than consistency with the ground-truth SQL under the reference-dependent paradigm. ROSE employs an adversarial Prover-Refuter cascade: SQL Prover assesses the semantic correctness of a predicted SQL against the user's intent independently, while Adversarial Refuter uses the ground-truth SQL as evidence to challenge and refine this judgment. On our expert-aligned validation set ROSE-VEC, ROSE achieves the best agreement with human experts, outperforming the next-best metric by nearly 24% in Cohen's Kappa. We also conduct a largescale re-evaluation of 19 NL2SQL methods, revealing four valuable insights. We release ROSE and ROSE-VEC to facilitate more reliable NL2SQL research.

0 Citations
0 Influential
5 Altmetric
25.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!