NL2SQL(Natural Language to SQL) 기술은 빠르게 발전하고 있으며 자연어 처리 분야에서 중요한 혁신이 되었습니다. 이를 통해 사용자는 자연어를 사용하여 데이터베이스에 쿼리할 수 있으므로 데이터 액세스가 크게 단순화되고 효율성이 향상됩니다. 그러나 기존 방법은 특히 복잡한 데이터베이스와 도메인 간 애플리케이션을 처리할 때 정확성과 적응성 측면에서 문제가 있습니다. Downcodes의 편집자는 Alibaba 팀이 제안한 XiYan-SQL 프레임워크와 이 프레임워크가 이러한 문제를 효과적으로 해결할 수 있는 방법을 소개합니다.
그러나 NL2SQL을 구현하는 동안 쿼리 정확성과 적응성 사이에는 일정한 균형이 있습니다. 일부 방법은 SQL 쿼리를 생성할 때 정확성을 보장할 수 없으며 다양한 유형의 데이터베이스에 적용하기 어렵습니다. 일부 기존 솔루션은 LLM(대형 언어 모델)을 사용하여 여러 출력을 생성하고 프롬프트 엔지니어링을 통해 최상의 쿼리를 선택하지만 이 접근 방식은 계산 부담을 증가시키고 실시간 애플리케이션에는 적합하지 않습니다. 동시에 SFT(감독 미세 조정)는 목표한 SQL 생성을 달성할 수 있지만 도메인 간 애플리케이션 및 복잡한 데이터베이스 작업에 어려움을 겪으므로 혁신적인 프레임워크가 시급히 필요합니다.
Alibaba의 연구팀은 획기적인 NL2SQL 프레임워크인 XiYan-SQL을 출시했습니다. 신속한 엔지니어링과 SFT의 장점을 결합한 다중 발전기 앙상블 전략을 통합합니다. XiYan-SQL의 주요 혁신은 데이터 유형, 기본 키 및 샘플 값을 포함하여 데이터베이스 계층 구조에 대한 시스템의 이해를 향상시켜 정확성과 능력을 향상시킬 수 있는 반구조적 스키마 표현 방법인 M-Schema의 도입입니다. 상황에 맞게 SQL 쿼리에 적합합니다.
XiYan-SQL은 3단계 프로세스를 사용하여 SQL 쿼리를 생성하고 최적화합니다.
첫째, 시스템은 아키텍처 링크를 통해 관련 데이터베이스 요소를 식별함으로써 중복 정보를 줄이고 핵심 구조에 집중합니다. 다음으로, ICL(예제 학습) 및 SFT 기반 생성기를 사용하여 SQL 후보를 생성합니다. 마지막으로 시스템은 오류 수정 모델과 선택 모델을 사용하여 생성된 SQL을 최적화하고 필터링하여 최상의 쿼리가 선택되도록 합니다. XiYan-SQL은 이러한 단계를 기존 방법을 뛰어넘는 효율적인 파이프라인에 통합합니다.
엄격한 벤치마크 테스트를 거친 후 XiYan-SQL은 여러 표준 테스트 세트에서 좋은 성능을 발휘했습니다. 예를 들어 Spider 테스트 세트에서 이전 상위 모델보다 훨씬 앞서는 89.65%의 실행 정확도를 달성했습니다.
또한 XiYan-SQL은 비관계형 데이터 세트에 대한 적응성 측면에서도 NL2GQL 테스트 세트에서 41.20%의 정확도를 달성하는 등 탁월한 결과를 얻었습니다. 이러한 결과는 XiYan-SQL이 다양한 시나리오에서 뛰어난 유연성과 정확성을 가지고 있음을 보여줍니다.
github:https://github.com/XGenerationLab/XiYan-SQL
전체적으로 XiYan-SQL 프레임워크는 혁신적인 M-스키마 및 다중 생성기 통합 전략을 통해 NL2SQL 분야에서 획기적인 발전을 이루었으며 효율적이고 정확한 자연어 데이터베이스 쿼리를 위한 새로운 솔루션을 제공합니다. 여러 테스트 세트에서 탁월한 성능을 발휘한다는 점은 강력한 실용성과 폭넓은 적용 가능성을 입증합니다. 관심 있는 독자는 GitHub 링크를 방문하여 자세한 내용을 확인할 수 있습니다.