发布于:2024 年 12 月 03 日 星期二 北京
#NL2SQL #阿里巴巴 #Text-to-SQL
文提出了一种用于自然语言到 SQL 转换的多生成器集成框架 ——XiYan-SQL,旨在应对大型语言模型在 NL2SQL 任务中的挑战。该框架融合提示工程与监督微调(SFT)方法,利用 SFT 的可控性与上下文学习(ICL)潜力提升 SQL 查询质量与多样性。引入的 M-Schema 半结构化模式表示法增强数据库理解,其在多模型实验中表现优于传统模式。在模式链接环节精准筛选数据元素;候选生成阶段,微调 SQL 发生器经两阶段训练定制模型,ICL SQL 发生器依骨架相似选例,SQL 精炼器纠错优化;候选选择模块突破传统自一致性局限,训练模型精准抉择。多数据集实验验证 XiYan-SQL 优势,在 Spider、SQL-Eval、NL2GQL 达领先准确率,消融研究证实各组件关键作用,为 NL2SQL 任务开辟新径、引领发展。关注公众号【AIGC前沿技术追踪】后回复 XiYan 获取第一手英文翻译稿。
一、引言
在当今数字化时代,海量数据存储于各类数据库中,如何让非专业用户也能便捷地从复杂数据集中提取有价值信息,成为一项关键挑战。自然语言到 SQL(NL2SQL)技术应运而生,它能将自然语言查询转化为结构化查询语言(SQL),极大地提升了数据访问的效率与便捷性。大型语言模型(LLMs)的迅猛发展为 NL2SQL 应用注入强大动力,然而现有基于 LLMs 的 NL2SQL 解决方案仍存在诸多不足。
1.1 现有 NL2SQL 解决方案的局限
当前,基于 LLMs 的 NL2SQL 解决方案主要有提示工程和监督微调(SFT)两种途径。提示工程通过优化提示利用模型固有能力生成多样 SQL 查询,在零样本或少量样本提示的 NL2SQL 任务中成效显著,像 GPT-4 和 Gemini 1.5 等闭源大参数模型潜力巨大、泛化能力强,但多路径生成与自一致性选优的方式致使推理开销高昂。SFT 方法则在 NL2SQL 任务上对小参数模型微调,以生成更可控 SQL 查询,如 CodeS 虽能产生可控结果,却因参数有限,在复杂 NL2SQL 推理及新领域数据库迁移时力不从心。
1.2 XiYan-SQL 的创新理念
为攻克这些难题,XiYan-SQL 框架闪亮登场。它巧妙融合提示工程与 SFT 方法之长,在候选生成阶段展现出卓越性能。一方面,凭借 SFT 的高可控性,精心设计系列训练策略微调模型,生成风格各异、高质量的候选 SQL 查询;另一方面,借助上下文学习(ICL)的强大功能提升候选多样性与复杂查询生成能力。同时,引入 M-schema 这一新颖的半结构化模式表示法,助力 LLMs 更好地把握数据库架构,还通过优化各组件及精细的候选选择策略,全方位提升 NL2SQL 任务的处理水平。