Область обработки естественного языка (NLP) добилась значительного прогресса, особенно в технологии естественного языка в SQL (NL2SQL). В традиционном методе NL2SQL существует компромисс между точностью и адаптируемостью, и трудно удовлетворить потребности различных баз данных и сложных запросов. В этой статье будет представлена инфраструктура XiYan-SQL, созданная исследовательской группой Alibaba, а также то, как она решает эти проблемы с помощью инновационных методов и значительно повышает производительность NL2SQL.
Технология естественного языка в SQL (NL2SQL) быстро развивается и стала важной инновацией в области обработки естественного языка (NLP). Эта технология позволяет пользователям преобразовывать запросы на естественном языке в операторы языка структурированных запросов (SQL). Это усовершенствование значительно облегчает взаимодействие между пользователями, которым не хватает технического образования и сложных баз данных, для получения ценной информации. Технология NL2SQL не только открывает новые возможности для исследования больших баз данных в различных отраслях, но также повышает эффективность работы и возможности принятия решений.
Однако при реализации NL2SQL существует определенный компромисс между точностью запросов и адаптивностью. Некоторые методы не могут гарантировать точность при формировании SQL-запросов, и их сложно адаптировать к различным типам баз данных. Некоторые существующие решения полагаются на большие языковые модели (LLM) для генерации нескольких выходных данных и выбора лучшего запроса посредством оперативного проектирования, но этот подход увеличивает вычислительную нагрузку и не подходит для приложений реального времени. В то же время, хотя контролируемая точная настройка (SFT) может обеспечить целевую генерацию SQL, она сталкивается с трудностями в междоменных приложениях и сложных операциях с базами данных, поэтому срочно необходимы инновационные платформы.
Исследовательская группа Alibaba запустила XiYan-SQL, революционную среду NL2SQL. Он включает в себя стратегию ансамбля с несколькими генераторами, которая сочетает в себе преимущества быстрого проектирования и SFT. Ключевым нововведением XiYan-SQL является введение M-Schema, метода представления полуструктурированной схемы, который может улучшить понимание системой иерархии базы данных, включая типы данных, первичные ключи и выборочные значения, тем самым повышая точность и возможности для контекстуального соответствия запросам SQL.
XiYan-SQL использует трехэтапный процесс генерации и оптимизации SQL-запросов.
Во-первых, система идентифицирует соответствующие элементы базы данных посредством архитектурных связей, тем самым сокращая избыточную информацию и концентрируясь на ключевых структурах. Далее кандидаты SQL генерируются с помощью генераторов на основе обучения на примерах (ICL) и SFT. Наконец, система использует модели исправления ошибок и модели выбора для оптимизации и фильтрации сгенерированного SQL-запроса, чтобы гарантировать выбор наилучшего запроса. XiYan-SQL объединяет эти шаги в эффективный конвейер, выходящий за рамки традиционных методов.
После тщательного эталонного тестирования XiYan-SQL показал хорошие результаты в нескольких стандартных наборах тестов. Например, он достиг точности выполнения 89,65% в наборе тестов Spider, что значительно опережает предыдущие топовые модели.
Кроме того, XiYan-SQL также добился отличных результатов с точки зрения адаптивности к нереляционным наборам данных, достигнув точности 41,20% в тестовом наборе NL2GQL. Эти результаты демонстрируют, что XiYan-SQL обладает превосходной гибкостью и точностью в различных сценариях.
github: https://github.com/XGenerationLab/XiYan-SQL
Выделять:
Представление инновационной архитектуры: M-Schema улучшает понимание иерархии базы данных и повышает точность запросов.
Расширенная генерация кандидатов: XiYan-SQL использует несколько генераторов для генерации различных кандидатов SQL, что повышает качество запросов.
Превосходная адаптируемость: в ходе тестов производительности XiYan-SQL продемонстрировал отличную производительность в различных базах данных, установив новый стандарт платформы NL2SQL.
В целом, XiYan-SQL, как усовершенствованная среда NL2SQL, добилась значительных успехов в точности и адаптируемости благодаря инновационному представлению схемы M-схемы, стратегии интеграции нескольких генераторов и эффективному процессу оптимизации, обеспечивающему основу для улучшения баз данных. мощные инструменты для интерактивной эффективности и упрощения пользовательских операций. Ссылка на GitHub помогает разработчикам лучше понять и использовать платформу.