엔터프라이즈 데이터 웨어하우스는 지난 20년 동안 모든 산업 분야의 기업에 대한 대규모 기술 투자를 대표합니다. 생성 AI는 새로운 콘텐츠를 생성하고 구조화되지 않은 형식의 대규모 정보 모음을 이해하는 데 많은 가능성을 보여줬지만 조직이 유용하게 만들기 위해 많은 투자를 한 데이터 소비를 어떻게 개선할 수 있을까요? 이러한 데이터 소스는 조직에서 가장 신뢰받는 소스 중 하나이며 많은 경우 최고 수준의 리더십에서 결정을 내립니다.
SQL(구조 쿼리 언어)은 70년대에 처음 등장한 이후 데이터베이스와 상호 작용하는 가장 보편적인 언어였지만 데이터를 이해하려면 집합 이론, 데이터 유형 및 외래 키 관계에 대한 깊은 이해가 여전히 필요합니다. . Generative AI는 자연어 질문을 유효한 SQL 쿼리로 변환하여 이러한 지식과 기술 격차를 해소하는 방법을 제공합니다.
데이터베이스에 대한 이러한 액세스 패턴의 이점을 누릴 수 있는 시스템과 사람들에는 고객 서비스 상담원 및 콜센터 직원과 같이 관계형 데이터 소스를 프로세스에 통합하려는 비기술적인 사람들이 포함됩니다. 또한 기술 사용 사례에는 추출-변형-로드 파이프라인, 관계형 데이터베이스를 통합하는 기존 RAG(검색 증강 생성) 아키텍처, 너무 커서 단독으로 탐색하기에는 너무 큰 데이터 플랫폼을 다루는 조직이 포함됩니다.
자연어에서 정확한 SQL 쿼리를 생성하는 가장 어려운 구성 요소는 우리가 언어를 처음 접할 때 어려움을 겪을 수 있는 것과 동일합니다. 외래 키 관계 식별, 질문을 더 작은 중첩 쿼리로 분할, 테이블 조인과 같은 개념은 SQL 쿼리 생성에서 가장 어려운 구성 요소 중 하나입니다. 연구원에 따르면 SQL 생성 테스트의 50% 이상이 스키마 연결 및 조인에서만 실패합니다.
이러한 쿼리의 핵심 구성 요소 외에도 각 데이터베이스 엔진에는 유효한 쿼리를 작성하기 위해 숙달할 수 있는 고유한 구문이 있습니다. 또한 많은 조직에는 겹치는 데이터 속성이 많이 있습니다. 예를 들어 값은 한 테이블에 집계되고 다른 테이블에는 집계되지 않습니다. 뿐만 아니라 올바르게 사용하려면 부족 지식이 필요한 약식 열 이름도 있습니다.
그렇다면 이 문제를 해결하는 데 얼마나 가까워졌나요? 커뮤니티는 레이블이 지정된 데이터 세트를 사용하여 가장 성공적인 접근 방식의 순위를 매기는 두 가지 주요 리더보드인 Spider와 BIRD를 중심으로 통합되었습니다. 두 리더보드 모두 이 문제를 해결하기 위한 특정 접근 방식의 정확성을 측정하기 위해 EX(실행 정확도)라고 하는 가장 중요한 측정항목에 우선순위를 둡니다. 이 측정항목은 생성된 SQL 쿼리를 레이블이 지정된 SQL 쿼리와 비교하여 일치 여부를 결정합니다. 또한 SPIDER는 EM(Exact Set Match Accuracy)을 측정합니다. 반환된 결과 집합이 쿼리 작성 방법에 관계없이 실제로 질문에 대답했는지 여부를 측정하고 BIRD는 생성된 SQL 쿼리의 성능을 측정하는 VES(유효 효율성 점수)를 제공합니다. 각 벤치마크 데이터 세트에 대한 자세한 내용은 해당 페이지에서 확인할 수 있습니다.
Spider 및 BIRD 데이터 세트는 Text-to-SQL 기술을 벤치마킹하고 모델을 미세 조정하기 위한 신뢰할 수 있고 강력한 데이터 세트임이 입증되었습니다. 이 모듈 전체에서 이러한 데이터 세트와 해당 순위표를 참조하여 Text-to-SQL에 대한 가장 강력한 접근 방식을 보여줍니다.
BIRD 순위표에 따르면 Text-to-SQL 문제에 대한 최신 기술은 실행 정확도가 60%에 달합니다. 이는 여전히 인간의 성능에 비해 훨씬 부족하지만, 1년 만에 7% EM 성능을 발휘하는 기본 T5 모델에서 1년 후 EM이 60%를 초과하는 것으로 이동했습니다. 이러한 모델과 기술이 계속해서 연구되면서 내년에는 이것이 어떻게 더욱 개선될지 기대됩니다.
이러한 기술은 올바른 SQL 쿼리를 생성하는 단일 작업에 최적화되어 있다는 점에 유의하는 것이 중요합니다. 이러한 순위표는 이러한 기술의 일부 중요한 측면, 가장 중요한 속도를 평가하지 않습니다. 이러한 기술 중 다수는 몇 초가 넘는 엔드투엔드 프롬프트 체인 속도를 보여 주는데, 이는 많은 제로샷 비즈니스 인텔리전스 사용 사례에서 허용할 수 없습니다. 또한 이들 중 다수는 필요한 추론을 완료하기 위해 LLM에 대해 여러 가지 추론을 수행하므로 쿼리당 비용이 상당히 높아질 수 있습니다.
이 워크숍은 강력한 프롬프트 엔지니어링을 시작으로 Text-to-SQL 기술을 발전시키도록 설계되었습니다. 모든 코드는 SageMaker Studio에서 호스팅되는 Jupyter 노트북 형식입니다. 시작할 준비가 되면 설정으로 이동하여 이 워크숍에 필요한 리소스 배포를 시작하세요.
워크숍 내용의 개요는 다음과 같습니다.