تمثل مستودعات بيانات المؤسسات العديد من أكبر الاستثمارات التكنولوجية للشركات في جميع الصناعات في العشرين عامًا الماضية. في حين أن الذكاء الاصطناعي التوليدي قد أظهر الكثير من الأمل في إنشاء محتوى جديد وفهم مجموعة كبيرة من المعلومات في تنسيق غير منظم، فكيف سيحسن استهلاك البيانات التي استثمرت المنظمات الكثير في جعلها مفيدة؟ تعد مصادر البيانات هذه من بين أكثر المصادر الموثوقة في المؤسسة وتدفع القرارات على أعلى مستويات القيادة في كثير من الحالات.
منذ بدايتها في السبعينيات، كانت لغة الاستعلام الهيكلية (SQL) هي اللغة الأكثر غموضًا للتفاعل مع قواعد البيانات ولكن لا يزال المرء بحاجة إلى فهم عميق لنظرية المجموعات وأنواع البيانات وعلاقات المفاتيح الأجنبية من أجل فهم البيانات. . يوفر الذكاء الاصطناعي التوليدي طريقة لسد هذه الفجوة في المعرفة والمهارات من خلال ترجمة أسئلة اللغة الطبيعية إلى استعلام SQL صالح.
تشمل الأنظمة والأشخاص الذين سيستفيدون من نمط الوصول هذا إلى قواعد البيانات أشخاصًا غير تقنيين يتطلعون إلى دمج مصادر البيانات العلائقية في عمليتهم، مثل وكلاء خدمة العملاء وشركاء مركز الاتصال. علاوة على ذلك، تشمل حالات الاستخدام الفني خطوط أنابيب الاستخراج والتحويل والتحميل، وبنيات الجيل المعزز للاسترجاع (RAG) الحالية التي تدمج قواعد البيانات العلائقية، والمؤسسات التي تتعامل مع منصة بيانات أكبر من أن تتمكن من التنقل بشكل معقول بمعزل عن غيرها.
إن أصعب مكونات إنشاء استعلام SQL دقيق من اللغة الطبيعية هي نفس العناصر التي ربما واجهناها كوافدين جدد إلى اللغة. تعد المفاهيم مثل تحديد علاقات المفاتيح الخارجية، وتقسيم السؤال إلى استعلامات أصغر ومتداخلة، وربط الجداول بشكل صحيح، من بين أصعب مكونات إنشاء استعلام SQL. وفقًا للباحثين، فإن أكثر من 50% من اختبارات إنشاء SQL تفشل في ربط المخطط والانضمام وحده.
علاوة على هذه المكونات الأساسية للاستعلام، يحتوي كل محرك قاعدة بيانات على بناء الجملة الخاص به والذي قد يضمن إتقانه لكتابة استعلام صالح. علاوة على ذلك، يوجد في العديد من المؤسسات العديد من سمات البيانات المتداخلة - على سبيل المثال، يتم تجميع القيمة في جدول واحد ولا يتم تجميعها في جدول آخر - بالإضافة إلى أسماء الأعمدة المختصرة التي تتطلب معرفة قبلية لاستخدامها بشكل صحيح.
إذن، ما مدى قربنا من حل هذه المشكلة؟ لقد اندمج المجتمع حول لوحتين رئيسيتين لتصنيف الأساليب الأكثر نجاحًا باستخدام مجموعة بيانات مصنفة: Spider وBIRD. تعطي كلتا لوحتي الصدارة الأولوية للمقياس الأكثر أهمية لقياس دقة أي نهج معين لحل هذه المشكلة، والذي يسمى دقة التنفيذ (EX). يقوم هذا المقياس ببساطة بمقارنة استعلام SQL الذي تم إنشاؤه باستعلام SQL المسمى لتحديد ما إذا كان مطابقًا أم لا. علاوة على ذلك، يقوم SPIDER بقياس دقة المطابقة التامة (EM) - هل مجموعة النتائج التي تم إرجاعها تجيب بالفعل على السؤال، بغض النظر عن كيفية كتابة الاستعلام - ويقدم BIRD نقاط الكفاءة الصالحة (VES)، وهو مقياس لمدى أداء استعلام SQL الذي تم إنشاؤه. يمكنك قراءة المزيد عن كل مجموعة بيانات مرجعية على الصفحات الخاصة بها.
أثبتت مجموعات بيانات Spider وBIRD أنها مجموعات بيانات موثوقة وقوية لقياس تقنيات تحويل النص إلى SQL، وحتى تحسين النماذج باستخدامها. سنشير خلال هذه الوحدة إلى مجموعات البيانات هذه ولوحات المتصدرين المقابلة لها لتوضيح أقوى الأساليب لتحويل النص إلى SQL.
وفقًا للوحة المتصدرين لـ BIRD، فإن أحدث مشكلة تحويل النص إلى SQL تصل إلى 60% من دقة التنفيذ. في حين أن هذا لا يزال أقل بكثير من الأداء البشري، لاحظ أنه في عام واحد انتقلنا من نموذج T5 الأساسي الذي يؤدي أداءً بنسبة 7٪ EM إلى عام بعد ذلك نرى EM يتجاوز 60٪. ويسعدنا أن نرى كيف يتحسن هذا الأمر بشكل أكبر في العام المقبل مع استمرار البحث في هذه النماذج والتقنيات.
من المهم ملاحظة أن هذه التقنيات تم تحسينها لشيء واحد، وهو إنشاء استعلام SQL الصحيح. لا تقوم لوحات المتصدرين هذه بتقييم بعض الجوانب المهمة لهذه التقنيات، وأهمها السرعة. تُظهر العديد من هذه التقنيات سرعة سلسلة سريعة من طرف إلى طرف تزيد عن بضع ثوانٍ، وهو ما لا يمكن أن تتحمله العديد من حالات استخدام ذكاء الأعمال. بالإضافة إلى ذلك، يقوم العديد منهم أيضًا بإجراء استنتاجات متعددة لـ LLM لإكمال المنطق اللازم، مما قد يؤدي إلى زيادة تكلفة كل استعلام بشكل كبير.
تم تصميم ورشة العمل هذه لتكون تطورًا في تقنيات تحويل النص إلى SQL، بدءًا من الهندسة السريعة القوية. كل التعليمات البرمجية موجودة في شكل Jupyter Notebooks، المستضافة في SageMaker Studio. عندما تكون مستعدًا للبدء، توجه إلى الإعداد لبدء نشر الموارد اللازمة لورشة العمل هذه.
وفيما يلي ملخص لمحتوى الورشة: