Gudang data perusahaan mewakili investasi teknologi terbesar bagi perusahaan di semua industri dalam 20 tahun terakhir. Meskipun AI generatif telah menunjukkan banyak harapan dalam menciptakan konten baru dan memahami sejumlah besar informasi dalam format tidak terstruktur, bagaimana hal ini dapat meningkatkan konsumsi data yang telah banyak diinvestasikan oleh organisasi agar bermanfaat? Sumber data ini termasuk yang paling tepercaya dalam suatu organisasi dan dalam banyak kasus mendorong keputusan di tingkat kepemimpinan tertinggi.
Sejak dimulainya pada tahun 70-an, Structure Query Language (SQL) telah menjadi bahasa yang paling banyak digunakan untuk berinteraksi dengan database, namun kita masih memerlukan pemahaman mendalam tentang teori himpunan, tipe data, dan hubungan kunci asing agar dapat memahami data. . AI Generatif menawarkan cara untuk menjembatani kesenjangan pengetahuan dan keterampilan ini dengan menerjemahkan pertanyaan bahasa alami menjadi kueri SQL yang valid.
Sistem dan orang-orang yang mendapatkan manfaat dari pola akses ke database ini mencakup orang-orang non-teknis yang ingin memasukkan sumber data relasional ke dalam proses mereka, seperti agen layanan pelanggan dan rekanan pusat panggilan. Lebih lanjut, kasus penggunaan teknis mencakup pipeline Extract-Transform-Load, arsitektur Retrieval Augmented Generation (RAG) yang mengintegrasikan database relasional, dan organisasi yang berurusan dengan platform data yang terlalu besar untuk dinavigasi secara terpisah.
Komponen tersulit dalam membuat kueri SQL yang akurat dari bahasa alami adalah komponen yang sama yang mungkin kita hadapi sebagai pendatang baru dalam bahasa tersebut. Konsep seperti mengidentifikasi hubungan kunci asing, memecah pertanyaan menjadi kueri yang lebih kecil dan bertumpuk, dan menggabungkan tabel dengan benar, merupakan salah satu komponen tersulit dalam pembuatan kueri SQL. Menurut peneliti, lebih dari 50% pengujian pembuatan SQL gagal pada penautan skema dan penggabungan saja.
Selain komponen inti kueri ini, setiap mesin basis data memiliki sintaksnya sendiri yang mungkin memerlukan penguasaan untuk menulis kueri yang valid. Selain itu, di banyak organisasi, terdapat banyak atribut data yang tumpang tindih - misalnya, nilai dikumpulkan dalam satu tabel dan tidak dikumpulkan di tabel lain - serta nama kolom yang disingkat yang memerlukan pengetahuan suku agar dapat digunakan dengan benar.
Jadi seberapa dekat kita untuk memecahkan masalah ini? Komunitas telah bersatu dalam dua papan peringkat utama yang memberi peringkat pada pendekatan paling sukses dengan kumpulan data berlabel: Spider dan BIRD. Kedua papan peringkat memprioritaskan metrik paling penting untuk mengukur keakuratan pendekatan tertentu untuk memecahkan masalah ini, yang disebut Akurasi Eksekusi (EX). Metrik ini hanya membandingkan kueri SQL yang dihasilkan dengan kueri SQL berlabel untuk menentukan apakah kueri tersebut cocok atau tidak. Selanjutnya, SPIDER mengukur Exact Set Match Accuracy (EM) – apakah kumpulan hasil yang dikembalikan benar-benar menjawab pertanyaan, terlepas dari cara penulisan kueri – dan BIRD menawarkan Valid Efficiency Score (VES), yang mengukur seberapa baik performa kueri SQL yang dihasilkan. Anda dapat membaca lebih lanjut tentang setiap kumpulan data benchmark di halamannya masing-masing.
Kumpulan data Spider dan BIRD telah terbukti otoritatif, kumpulan data yang kuat untuk mengukur teknik Text-to-SQL, dan bahkan menyempurnakan model. Sepanjang modul ini kita akan mengacu pada kumpulan data ini dan papan peringkat terkait untuk menunjukkan pendekatan paling kuat terhadap Text-to-SQL.
Menurut papan peringkat BIRD, kecanggihan untuk masalah Text-to-SQL berada pada Akurasi Eksekusi 60%. Meskipun angka tersebut masih jauh di bawah kinerja manusia, perhatikan bahwa dalam satu tahun kita telah beralih dari model T5 dasar yang berkinerja pada 7% EM ke setahun kemudian melihat EM melebihi 60%. Kami sangat antusias untuk melihat bagaimana hal ini semakin meningkat di tahun mendatang seiring dengan terus ditelitinya model dan teknik ini.
Penting untuk dicatat bahwa teknik ini dioptimalkan untuk satu hal, yaitu menghasilkan kueri SQL yang benar. Papan peringkat ini tidak menilai beberapa aspek penting dari teknik ini, yang terpenting adalah kecepatan. Banyak dari teknik ini menunjukkan kecepatan rantai cepat end-to-end lebih dari beberapa detik, yang tidak dapat ditoleransi oleh banyak kasus penggunaan intelijen bisnis zero-shot. Selain itu, banyak dari mereka juga membuat beberapa kesimpulan pada LLM untuk melengkapi alasan yang diperlukan, yang dapat meningkatkan biaya per kueri secara signifikan.
Lokakarya ini dirancang sebagai kemajuan teknik Text-to-SQL, dimulai dengan rekayasa cepat yang kuat. Semua kode dalam bentuk Jupyter Notebooks, yang dihosting di SageMaker Studio. Saat Anda siap untuk memulai, buka Penyiapan untuk memulai penerapan sumber daya yang diperlukan untuk lokakarya ini.
Berikut ini adalah garis besar isi lokakarya: