企業資料倉儲代表了過去 20 年來各行業公司最大的技術投資。雖然生成式人工智慧在創造新穎內容和理解非結構化格式的大量資訊方面顯示出很大的前景,但它將如何改善組織投入大量資金以使其有用的數據的消耗?這些資料來源是組織中最值得信賴的資料來源,在許多情況下可以推動最高領導層的決策。
自 70 年代誕生以來,結構查詢語言 (SQL) 一直是與資料庫互動的最普遍的語言,但仍需要深入了解集合論、資料類型和外鍵關係才能理解資料。生成式人工智慧提供了一種透過將自然語言問題轉換為有效的 SQL 查詢來彌合這種知識和技能差距的方法。
從這種資料庫存取模式中受益的系統和人員包括希望將關聯式資料來源合併到其流程中的非技術人員,例如客戶服務代理和呼叫中心同事。此外,技術用例包括提取-轉換-載入管道、整合關係資料庫的現有檢索增強生成(RAG)架構,以及正在處理太大而無法單獨合理導航的資料平台的組織。
使用自然語言建立準確的 SQL 查詢的最困難的部分與我們作為該語言的新手可能會遇到的問題相同。識別外鍵關係、將問題分解為更小的巢狀查詢以及正確連接表等概念是 SQL 查詢生成中最困難的組成部分。據研究人員稱,超過 50% 的 SQL 生成測試僅在模式連結和連接方面失敗。
除了查詢的這些核心元件之外,每個資料庫引擎都有自己的語法,需要掌握這些語法才能編寫有效的查詢。此外,在許多組織中,存在許多重疊的資料屬性(例如,一個值聚合在一個表中,而不聚合在另一個表中),以及需要部落知識才能正確使用的縮寫列名。
那我們離解決這個問題還有多遠呢?該社群聯合了兩個主要排行榜,透過標記資料集對最成功的方法進行排名:Spider 和 BIRD。兩個排行榜都優先考慮衡量解決該問題的任何給定方法的準確性的最重要指標,稱為執行準確性(EX)。此指標只是將產生的 SQL 查詢與標記的 SQL 查詢進行比較,以確定其是否符合。此外,SPIDER 測量精確集匹配精度 (EM)——無論查詢如何編寫,傳回的結果集是否真正回答了問題——而 BIRD 提供有效效率分數 (VES),衡量生成的 SQL 查詢的效能。您可以在各自的頁面上閱讀有關每個基準資料集的更多資訊。
Spider 和 BIRD 資料集已被證明是權威、強大的資料集,可用於基準測試文字到 SQL 技術,甚至可用於微調模型。在本模組中,我們將參考這些資料集及其對應的排行榜來示範最強大的文字到 SQL 方法。
根據 BIRD 排行榜,文字到 SQL 問題的最新執行精確度為 60%。雖然這仍然遠低於人類的表現,但請注意,在一年內,我們已經從基準 T5 模型的 EM 7% 變為一年後的 EM 超過 60%。隨著這些模型和技術的繼續研究,我們很高興看到這一點在未來一年如何進一步改進。
值得注意的是,這些技術針對單一事物進行了最佳化,即產生正確的 SQL 查詢。這些排行榜不會評估這些技術的一些關鍵方面,最重要的是速度。其中許多技術展示了遠遠超過幾秒鐘的端到端提示鏈速度,這是許多零樣本商業智慧用例無法容忍的。此外,他們中的許多人還對 LLM 進行多次推理以完成必要的推理,這可能會大大增加每次查詢的成本。
本次研討會旨在從強大的提示工程開始,推動文字到 SQL 技術的發展。所有程式碼均採用 Jupyter Notebooks 的形式,託管在 SageMaker Studio 中。當您準備好開始時,請前往「設定」開始為本次研討會部署必要的資源。
以下為研討會內容概要: