Teknologi Natural Language to SQL (NL2SQL) berkembang pesat dan telah menjadi terobosan penting dalam bidang pemrosesan bahasa alami. Hal ini memungkinkan pengguna untuk menanyakan database menggunakan bahasa alami, sangat menyederhanakan akses data dan meningkatkan efisiensi. Namun, metode yang ada memiliki tantangan dalam hal akurasi dan kemampuan beradaptasi, terutama ketika berhadapan dengan database yang kompleks dan aplikasi lintas domain. Editor Downcodes akan memperkenalkan kepada Anda kerangka kerja XiYan-SQL yang diusulkan oleh tim Alibaba dan bagaimana kerangka kerja ini dapat menyelesaikan masalah ini secara efektif.
Namun, ada trade-off tertentu antara akurasi kueri dan kemampuan beradaptasi selama penerapan NL2SQL. Beberapa metode tidak dapat menjamin keakuratan saat menghasilkan kueri SQL, dan sulit untuk beradaptasi dengan berbagai jenis database. Beberapa solusi yang ada bergantung pada model bahasa besar (LLM) untuk menghasilkan banyak keluaran dan memilih kueri terbaik melalui rekayasa cepat, namun pendekatan ini meningkatkan beban komputasi dan tidak cocok untuk aplikasi waktu nyata. Pada saat yang sama, meskipun penyempurnaan terawasi (SFT) dapat mencapai pembuatan SQL yang ditargetkan, SFT menghadapi kesulitan dalam aplikasi lintas domain dan operasi database yang kompleks, sehingga kerangka kerja inovatif sangat dibutuhkan.
Tim peneliti Alibaba meluncurkan XiYan-SQL, sebuah terobosan kerangka kerja NL2SQL. Ini menggabungkan strategi ansambel multi-generator yang menggabungkan keunggulan rekayasa cepat dan SFT. Inovasi utama XiYan-SQL adalah pengenalan M-Schema, metode representasi skema semi-terstruktur yang dapat meningkatkan pemahaman sistem tentang hierarki database, termasuk tipe data, kunci utama, dan nilai sampel, sehingga meningkatkan akurasi dan kemampuan. untuk menyesuaikan kueri SQL secara kontekstual.
XiYan-SQL menggunakan proses tiga tahap untuk menghasilkan dan mengoptimalkan kueri SQL.
Pertama, sistem mengidentifikasi elemen database yang relevan melalui tautan arsitektur, sehingga mengurangi informasi yang berlebihan dan berfokus pada struktur utama. Selanjutnya, kandidat SQL dihasilkan menggunakan generator berdasarkan pembelajaran contoh (ICL) dan SFT. Terakhir, sistem menggunakan model koreksi kesalahan dan model pemilihan untuk mengoptimalkan dan memfilter SQL yang dihasilkan untuk memastikan bahwa kueri terbaik dipilih. XiYan-SQL mengintegrasikan langkah-langkah ini ke dalam saluran efisien yang melampaui metode tradisional.
Setelah pengujian benchmark yang ketat, XiYan-SQL berkinerja baik di beberapa set pengujian standar. Misalnya, ia mencapai akurasi eksekusi sebesar 89,65% pada set pengujian Spider, jauh di depan model teratas sebelumnya.
Selain itu, XiYan-SQL juga mencapai hasil yang sangat baik dalam hal kemampuan beradaptasi terhadap kumpulan data non-relasional, mencapai akurasi 41,20% pada kumpulan pengujian NL2GQL. Hasil ini menunjukkan bahwa XiYan-SQL memiliki fleksibilitas dan akurasi yang sangat baik dalam berbagai skenario.
github:https://github.com/XGenerationLab/XiYan-SQL
Secara keseluruhan, kerangka kerja XiYan-SQL telah membuat terobosan signifikan di bidang NL2SQL dengan strategi integrasi M-Schema dan multi-generator yang inovatif, memberikan solusi baru untuk kueri database bahasa alami yang efisien dan akurat. Performanya yang luar biasa dalam berbagai set pengujian juga membuktikan kepraktisan yang kuat dan prospek penerapan yang luas. Pembaca yang tertarik dapat mengunjungi tautan GitHub untuk informasi lebih lanjut.