데이터베이스 쿼리 최적화 프로그램은 CE(카디널리티 추정)에 크게 의존하여 쿼리 결과 크기를 예측하고 이에 따라 최상의 실행 계획을 선택합니다. 부정확한 카디널리티 추정으로 인해 쿼리 성능이 저하될 수 있습니다. 기존 CE 방법에는 특히 복잡한 쿼리를 처리할 때 제한이 있습니다. 학습 CE 모델이 더 정확하기는 하지만 훈련 비용이 높고 체계적인 벤치마크 평가가 부족합니다.
최신 관계형 데이터베이스에서는 카디널리티 추정(CE)이 중요한 역할을 합니다. 간단히 말해서 카디널리티 추정은 데이터베이스 쿼리가 반환할 중간 결과 수를 예측하는 것입니다. 이 예측은 조인 순서 결정, 인덱스 사용 여부, 최상의 조인 방법 선택 등 쿼리 최적화 프로그램의 실행 계획 선택에 큰 영향을 미칩니다. 카디널리티 추정이 정확하지 않으면 실행 계획이 크게 손상되어 쿼리 속도가 극도로 느려지고 데이터베이스의 전체 성능에 심각한 영향을 미칠 수 있습니다.
그러나 기존의 카디널리티 추정 방법에는 많은 한계가 있습니다. 기존 CE 기술은 몇 가지 단순화된 가정에 의존하며 특히 여러 테이블과 조건이 관련된 경우 복잡한 쿼리의 카디널리티를 정확하게 예측하는 경우가 많습니다. CE 모델을 학습하면 정확도가 향상될 수 있지만 훈련 시간이 길고 대규모 데이터 세트가 필요하며 체계적인 벤치마크 평가가 부족하여 적용이 제한됩니다.
이러한 격차를 메우기 위해 Google 연구팀은 새로운 벤치마킹 프레임워크인 CardBench를 출시했습니다. CardBench에는 이전 벤치마크를 훨씬 능가하는 20개 이상의 실제 데이터베이스와 수천 개의 쿼리가 포함되어 있습니다. 이를 통해 연구자들은 다양한 조건에서 다양한 학습 CE 모델을 체계적으로 평가하고 비교할 수 있습니다. 벤치마크는 인스턴스 기반 모델, 제로샷 모델, 다양한 교육 요구에 적합한 미세 조정 모델 등 세 가지 주요 설정을 지원합니다.
CardBench는 또한 필요한 통계를 계산하고, 실제 SQL 쿼리를 생성하고, CE 모델 교육을 위한 주석이 달린 쿼리 그래프를 생성할 수 있는 도구 세트를 포함하도록 설계되었습니다.
벤치마크는 두 가지 훈련 데이터 세트를 제공합니다. 하나는 여러 필터 조건자가 있는 단일 테이블 쿼리용이고 다른 하나는 두 테이블을 포함하는 이진 조인 쿼리용입니다. 벤치마크에는 소규모 데이터세트 중 하나에 대한 9125개의 단일 테이블 쿼리와 8454개의 이진 조인 쿼리가 포함되어 있어 모델 평가를 위한 강력하고 까다로운 환경을 보장합니다. Google BigQuery의 훈련 데이터 레이블에는 7 CPU 년의 쿼리 실행 시간이 필요했으며 이는 이 벤치마크를 생성하는 데 상당한 계산 투자가 필요했음을 강조합니다. 이러한 데이터 세트와 도구를 제공함으로써 CardBench는 연구자들이 새로운 CE 모델을 개발하고 테스트하는 장벽을 낮춥니다.
CardBench를 이용한 성능 평가에서는 미세 조정된 모델이 특히 좋은 성능을 보였습니다. 제로 샷 모델은 보이지 않는 데이터 세트, 특히 조인과 관련된 복잡한 쿼리에 적용될 때 정확도를 향상시키는 데 어려움을 겪는 반면, 미세 조정 모델은 훨씬 적은 훈련 데이터로 인스턴스 기반 방법과 비슷한 정확도를 달성할 수 있습니다. 예를 들어, 미세 조정된 GNN(그래프 신경망) 모델은 이진 조인 쿼리에서 중앙값 q 오류 1.32와 95번째 백분위수 q 오류 120을 달성했는데, 이는 제로샷 모델보다 훨씬 더 나은 수치입니다. 결과는 500개의 쿼리가 있어도 사전 학습된 모델을 미세 조정하면 성능이 크게 향상될 수 있음을 보여줍니다. 따라서 훈련 데이터가 제한될 수 있는 실제 애플리케이션에 적합합니다.
CardBench의 도입은 학습된 카디널리티 추정 분야에 새로운 희망을 가져오고, 연구자들이 모델을 보다 효과적으로 평가하고 개선할 수 있도록 하여 이 중요한 분야의 추가 개발을 촉진합니다.
논문 입구: https://arxiv.org/abs/2408.16170
즉, CardBench는 포괄적이고 강력한 벤치마킹 프레임워크를 제공하고, 학습 카디널리티 추정 모델의 연구 및 개발을 위한 중요한 도구와 리소스를 제공하며, 데이터베이스 쿼리 최적화 기술의 발전을 촉진합니다. 미세 조정된 모델의 뛰어난 성능은 특히 주목할 만한 가치가 있으며 실제 적용 시나리오에 대한 새로운 가능성을 제공합니다.