DBT permet aux analystes de données et aux ingénieurs de transformer leurs données en utilisant les mêmes pratiques que les ingénieurs logiciels utilisent pour créer des applications.
Le Lakehouse de Databricks fournit une plate-forme simple pour unifier toutes vos données, analyses et charges de travail de l'IA.
L'adaptateur dbt-databricks
contient tout le code permettant à DBT de travailler avec Databricks. Cet adaptateur est basé sur le travail incroyable effectué dans DBT-Spark. Certaines fonctionnalités clés incluent:
Configuration facile . Pas besoin d'installer un pilote ODBC car l'adaptateur utilise des API Python purs.
Ouvrir par défaut . Par exemple, il utilise le format de table delta ouvert et performant par défaut. Cela présente de nombreux avantages, notamment en vous permettant d'utiliser MERGE
comme la stratégie de matérialisation incrémentielle par défaut.
Prise en charge du catalogue Unity . DBT-DATABRICKS> = 1.1.1 prend en charge l'espace de noms à 3 niveaux du catalogue Unity (catalogue / schéma / relations) afin que vous puissiez organiser et sécuriser vos données comme vous le souhaitez.
Performance . L'adaptateur génère des expressions SQL qui sont automatiquement accélérées par le moteur d'exécution de photons vectorisé natif.
Si vous développez un projet DBT sur Databricks, nous vous recommandons d'utiliser dbt-databricks
pour les raisons notées ci-dessus.
dbt-spark
est un adaptateur activement développé qui fonctionne avec Databricks ainsi qu'avec Apache Spark partout où il est hébergé par exemple sur AWS EMR.
Installer à l'aide de PIP:
pip install dbt-databricks
Passer à la dernière version
pip install --upgrade dbt-databricks
your_profile_name:
target: dev
outputs:
dev:
type: databricks
catalog: [optional catalog name, if you are using Unity Catalog, only available in dbt-databricks>=1.1.1]
schema: [database/schema name]
host: [your.databrickshost.com]
http_path: [/sql/your/http/path]
token: [dapiXXXXXXXXXXXXXXXXXXXXXXX]
Ces départs suivants vous permettra de fonctionner avec l'adaptateur dbt-databricks
:
Développer votre premier projet DBT
Utilisation du nuage DBT avec Databricks (Azure | AWS)
Exécution des travaux de production DBT sur les workflows de données
Utilisation du catalogue d'unité avec DBT-Databricks
Utilisation d'actions GitHub pour DBT CI / CD sur Databricks
Chargement des données de S3 vers Delta à l'aide de la macro de databricks_copy_into
Contribuer à ce référentiel
L'adaptateur dbt-databricks
a été testé:
avec Python 3.7 ou plus.
CONTRE Databricks SQL
et Databricks runtime releases 9.1 LTS
et plus tard.
Vous pouvez remplacer le calcul utilisé pour un modèle Python spécifique en définissant la propriété http_path
dans la configuration du modèle. Cela peut être utile si, par exemple, vous souhaitez exécuter un modèle Python sur un cluster All Publis, tout en exécutant des modèles SQL sur un entrepôt SQL. Notez que cette capacité n'est disponible que pour les modèles Python.
def model(dbt, session): dbt.config( http_path="sql/protocolv1/..." )