데이터 에이전트에게 부족한 지식을 불어넣다
Arming Data Agents with Tribal Knowledge
자연어-SQL 변환(NL2SQL) 기술은 비전문가 사용자가 자연어를 사용하여 관계형 데이터베이스를 쿼리할 수 있도록 합니다. 최근에는 대규모 언어 모델(LLM)의 추론 능력을 활용한 NL2SQL 에이전트가 NL2SQL 변환 기술을 크게 발전시켰습니다. 그러나 NL2SQL 에이전트는 여전히 대규모의 실제 데이터베이스에서 오류를 범하는 경향이 있는데, 이는 에이전트가 기본 데이터의 올바른 활용 방법에 대한 지식이 부족하고, 데이터베이스를 쿼리할 때 데이터에 대한 오해를 갖기 때문입니다. 기존 연구에서는 NL2SQL 에이전트에 더 많은 맥락을 제공하기 위해 데이터베이스에 대한 사실을 생성하는 방법을 연구했지만, 이러한 접근 방식은 단순히 데이터베이스의 내용을 반복할 뿐, 에이전트의 오해를 해결하지 못합니다. 본 논문에서는 Tk-Boost라는 추가 모듈형 프레임워크를 제안합니다. Tk-Boost는 모든 NL2SQL 에이전트에 '부족한 지식(tribal knowledge)'을 제공하여 데이터베이스 쿼리 시 에이전트의 오해를 수정합니다. Tk-Boost는 에이전트가 데이터베이스를 사용하면서 얻은 경험을 바탕으로 이러한 부족한 지식을 축적합니다. 경험을 축적하기 위해 Tk-Boost는 먼저 NL2SQL 에이전트에게 데이터베이스에 대한 몇 가지 쿼리를 수행하도록 요청하고, 에이전트의 오류를 분석하여 에이전트의 오해를 파악한 다음, 이러한 오해를 해결하기 위한 부족한 지식을 생성합니다. 정확한 정보 검색을 위해 Tk-Boost는 이러한 지식을 유용성이 적용되는 조건과 함께 인덱싱합니다. 새로운 쿼리에 답변할 때 Tk-Boost는 이러한 지식을 활용하여 NL2SQL 에이전트에 피드백을 제공하고, SQL 생성 과정에서 에이전트의 오해를 해결하여 에이전트의 정확도를 향상시킵니다. BIRD 및 Spider 2.0 벤치마크에서 다양한 NL2SQL 에이전트를 대상으로 실시한 광범위한 실험 결과, Tk-Boost는 Spider 2.0에서 최대 16.9%, BIRD에서 최대 13.7%의 NL2SQL 에이전트 정확도를 향상시키는 것으로 나타났습니다.
Natural language to SQL (NL2SQL) translation enables non-expert users to query relational databases through natural language. Recently, NL2SQL agents, powered by the reasoning capabilities of Large Language Models (LLMs), have significantly advanced NL2SQL translation. Nonetheless, NL2SQL agents still make mistakes when faced with large-scale real-world databases because they lack knowledge of how to correctly leverage the underlying data (e.g., knowledge about the intent of each column) and form misconceptions about the data when querying it, leading to errors. Prior work has studied generating facts about the database to provide more context to NL2SQL agents, but such approaches simply restate database contents without addressing the agent's misconceptions. In this paper, we propose Tk-Boost, a bolt-on framework for augmenting any NL2SQL agent with tribal knowledge: knowledge that corrects the agent's misconceptions in querying the database accumulated through experience using the database. To accumulate experience, Tk-Boost first asks the NL2SQL agent to answer a few queries on the database, identifies the agent's misconceptions by analyzing its mistakes on the database, and generates tribal knowledge to address them. To enable accurate retrieval, Tk-Boost indexes this knowledge with applicability conditions that specify the query features for which the knowledge is useful. When answering new queries, Tk-Boost uses this knowledge to provide feedback to the NL2SQL agent, resolving the agent's misconceptions during SQL generation, and thus improving the agent's accuracy. Extensive experiments across the BIRD and Spider 2.0 benchmarks with various NL2SQL agents shows Tk-Boost improves NL2SQL agents accuracy by up to 16.9% on Spider 2.0 and 13.7% on BIRD
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.