企业数据仓库代表了过去 20 年来各行业公司最大的技术投资。虽然生成式人工智能在创造新颖内容和理解非结构化格式的大量信息方面显示出很大的前景,但它将如何改善组织投入大量资金以使其有用的数据的消耗?这些数据源是组织中最值得信赖的数据源,在许多情况下可以推动最高领导层的决策。
自 70 年代诞生以来,结构查询语言 (SQL) 一直是与数据库交互最普遍的语言,但仍然需要深入了解集合论、数据类型和外键关系才能理解数据。生成式人工智能提供了一种通过将自然语言问题转换为有效的 SQL 查询来弥合这种知识和技能差距的方法。
从这种数据库访问模式中受益的系统和人员包括希望将关系数据源合并到其流程中的非技术人员,例如客户服务代理和呼叫中心同事。此外,技术用例包括提取-转换-加载管道、集成关系数据库的现有检索增强生成(RAG)架构,以及正在处理太大而无法单独合理导航的数据平台的组织。
使用自然语言创建准确的 SQL 查询的最困难的部分与我们作为该语言的新手可能会遇到的问题相同。识别外键关系、将问题分解为更小的嵌套查询以及正确连接表等概念是 SQL 查询生成中最难的组成部分。据研究人员称,超过 50% 的 SQL 生成测试仅在模式链接和连接方面失败。
除了查询的这些核心组件之外,每个数据库引擎都有自己的语法,需要掌握这些语法才能编写有效的查询。此外,在许多组织中,存在许多重叠的数据属性(例如,一个值聚合在一个表中,而不聚合在另一个表中),以及需要部落知识才能正确使用的缩写列名。
那么我们离解决这个问题还有多远呢?该社区联合了两个主要排行榜,通过标记数据集对最成功的方法进行排名:Spider 和 BIRD。两个排行榜都优先考虑衡量解决该问题的任何给定方法的准确性的最重要指标,称为执行准确性(EX)。该指标只是将生成的 SQL 查询与标记的 SQL 查询进行比较,以确定其是否匹配。此外,SPIDER 测量精确集匹配精度 (EM)——无论查询如何编写,返回的结果集是否真正回答了问题——而 BIRD 提供有效效率分数 (VES),衡量生成的 SQL 查询的性能。您可以在各自的页面上阅读有关每个基准数据集的更多信息。
Spider 和 BIRD 数据集已被证明是权威、强大的数据集,可用于基准测试文本到 SQL 技术,甚至可用于微调模型。在本模块中,我们将参考这些数据集及其相应的排行榜来演示最强大的文本到 SQL 方法。
根据 BIRD 排行榜,文本到 SQL 问题的最新执行精度为 60%。虽然这仍然远远低于人类的表现,但请注意,在一年内,我们已经从基准 T5 模型的 EM 7% 变为一年后的 EM 超过 60%。随着这些模型和技术的继续研究,我们很高兴看到这一点在来年如何进一步改进。
值得注意的是,这些技术针对单一事物进行了优化,即生成正确的 SQL 查询。这些排行榜不会评估这些技术的一些关键方面,最重要的是速度。其中许多技术展示了远远超过几秒的端到端提示链速度,这是许多零样本商业智能用例无法容忍的。此外,他们中的许多人还对 LLM 进行多次推理以完成必要的推理,这可能会大大增加每次查询的成本。
本次研讨会旨在从强大的提示工程开始,推动文本到 SQL 技术的发展。所有代码均采用 Jupyter Notebooks 的形式,托管在 SageMaker Studio 中。当您准备好开始时,请转到“设置”以开始为本次研讨会部署必要的资源。
以下为研讨会内容概要: