تتطور تقنية اللغة الطبيعية إلى SQL (NL2SQL) بسرعة وأصبحت إنجازًا رئيسيًا في مجال معالجة اللغة الطبيعية. فهو يسمح للمستخدمين بالاستعلام عن قاعدة البيانات باستخدام اللغة الطبيعية، مما يبسط الوصول إلى البيانات بشكل كبير ويحسن الكفاءة. ومع ذلك، فإن الأساليب الحالية تواجه تحديات من حيث الدقة والقدرة على التكيف، خاصة عند التعامل مع قواعد البيانات المعقدة والتطبيقات عبر المجالات. سيقدم لك محرر Downcodes إطار عمل XiYan-SQL الذي اقترحه فريق Alibaba وكيف يمكن لهذا الإطار حل هذه المشكلات بشكل فعال.
ومع ذلك، هناك مفاضلة معينة بين دقة الاستعلام والقدرة على التكيف أثناء تنفيذ NL2SQL. لا يمكن لبعض الأساليب ضمان الدقة عند إنشاء استعلامات SQL، ومن الصعب التكيف مع أنواع مختلفة من قواعد البيانات. تعتمد بعض الحلول الحالية على نماذج اللغة الكبيرة (LLMs) لإنشاء مخرجات متعددة واختيار أفضل استعلام من خلال الهندسة السريعة، ولكن هذا النهج يزيد العبء الحسابي وغير مناسب للتطبيقات في الوقت الفعلي. وفي الوقت نفسه، على الرغم من أن الضبط الدقيق الخاضع للإشراف (SFT) يمكنه تحقيق إنشاء SQL مستهدف، إلا أنه يواجه صعوبات في التطبيقات عبر النطاقات وعمليات قواعد البيانات المعقدة، لذلك هناك حاجة ماسة إلى أطر عمل مبتكرة.
أطلق فريق البحث التابع لـ Alibaba XiYan-SQL، وهو إطار عمل NL2SQL متطور. إنها تتضمن إستراتيجية مجموعة متعددة المولدات تجمع بين مزايا الهندسة السريعة وSFT. أحد الابتكارات الرئيسية لـ XiYan-SQL هو تقديم M-Schema، وهي طريقة تمثيل مخطط شبه منظمة يمكنها تعزيز فهم النظام للتسلسل الهرمي لقاعدة البيانات، بما في ذلك أنواع البيانات والمفاتيح الأساسية وقيم العينات، وبالتالي تحسين الدقة والقدرة لتناسب سياق استعلامات SQL.
يستخدم XiYan-SQL عملية من ثلاث مراحل لإنشاء استعلامات SQL وتحسينها.
أولا، يحدد النظام عناصر قاعدة البيانات ذات الصلة من خلال الروابط المعمارية، وبالتالي تقليل المعلومات الزائدة عن الحاجة والتركيز على الهياكل الرئيسية. بعد ذلك، يتم إنشاء مرشحات SQL باستخدام المولدات القائمة على التعلم النموذجي (ICL) وSFT. وأخيرًا، يستخدم النظام نماذج تصحيح الأخطاء ونماذج التحديد لتحسين وتصفية SQL التي تم إنشاؤها لضمان اختيار أفضل استعلام. يقوم XiYan-SQL بدمج هذه الخطوات في مسار فعال يتجاوز الأساليب التقليدية.
بعد اختبارات قياس الأداء الصارمة، كان أداء XiYan-SQL جيدًا في مجموعات اختبار قياسية متعددة، على سبيل المثال، حقق دقة تنفيذ تصل إلى 89.65% في مجموعة اختبار Spider، متفوقًا بشكل كبير على النماذج العليا السابقة.
بالإضافة إلى ذلك، حققت XiYan-SQL أيضًا نتائج ممتازة من حيث القدرة على التكيف مع مجموعات البيانات غير العلائقية، حيث وصلت إلى دقة 41.20% في مجموعة اختبار NL2GQL. توضح هذه النتائج أن XiYan-SQL يتمتع بمرونة ودقة ممتازتين في مجموعة متنوعة من السيناريوهات.
جيثب: https://github.com/XGenerationLab/XiYan-SQL
بشكل عام، حقق إطار XiYan-SQL اختراقات كبيرة في مجال NL2SQL من خلال M-Schema المبتكر واستراتيجيات التكامل متعددة المولدات، مما يوفر حلاً جديدًا لاستعلامات قاعدة بيانات اللغة الطبيعية الفعالة والدقيقة. كما يثبت أدائها الممتاز في مجموعات الاختبار المتعددة قدرتها العملية القوية وآفاق تطبيقها الواسعة. يمكن للقراء المهتمين زيارة رابط GitHub لمزيد من المعلومات.