Mit DBT können Datenanalysten und Ingenieure ihre Daten mithilfe der gleichen Praktiken, die Software -Ingenieure zum Erstellen von Anwendungen verwenden, transformieren.
Das Databricks Lakehouse bietet eine einfache Plattform, um alle Ihre Daten, Analysen und KI -Workloads zu vereinen.
Der dbt-databricks
Adapter enthält den gesamten Code, mit dem DBT mit Datenbanken arbeiten kann. Dieser Adapter basiert auf der erstaunlichen Arbeit im DBT-Spark. Einige wichtige Funktionen sind:
Einfache Setup . Sie müssen keinen ODBC -Treiber installieren, da der Adapter reine Python -APIs verwendet.
Standardmäßig öffnen . Beispielsweise verwendet es standardmäßig das Open- und Performant -Delta -Tabellenformat. Dies hat viele Vorteile, einschließlich der Verschmelzung als MERGE
als standardmäßige inkrementelle Materialisierungsstrategie.
Unterstützung für den Einheitskatalog . DBT-DATABRICKS> = 1.1.1 unterstützt den 3-Level-Namespace des Unity-Katalogs (Katalog / Schema / Beziehungen), sodass Sie Ihre Daten so organisieren und sichern können, wie Sie möchten.
Leistung . Der Adapter generiert SQL -Ausdrücke, die automatisch von der nativen, vektorisierten Photonausführungsmaschine beschleunigt werden.
Wenn Sie ein DBT-Projekt zu Datenbäumen entwickeln, empfehlen wir, dbt-databricks
aus den oben genannten Gründen zu verwenden.
dbt-spark
ist ein aktiv entwickeltes Adapter, der mit Datenbanken und Apache Spark überall, wo er auf AWS EMR gehostet wird, funktioniert.
Mit PIP installieren:
pip install dbt-databricks
Upgrade auf die neueste Version
pip install --upgrade dbt-databricks
your_profile_name:
target: dev
outputs:
dev:
type: databricks
catalog: [optional catalog name, if you are using Unity Catalog, only available in dbt-databricks>=1.1.1]
schema: [database/schema name]
host: [your.databrickshost.com]
http_path: [/sql/your/http/path]
token: [dapiXXXXXXXXXXXXXXXXXXXXXXX]
Mit diesen folgenden schnellen Starts werden Sie mit dem dbt-databricks
-Adapter zum Laufen gebracht:
Entwicklung Ihres ersten DBT -Projekts
Verwenden von DBT -Cloud mit Datenbanken (Azure | AWS)
Ausführen von DBT -Produktionsjobs auf Datenbanken Workflows
Verwenden Sie einen Einheitskatalog mit DBT-Databricks
Verwenden von GitHub -Aktionen für DBT CI/CD auf Datenbanken
Laden Sie Daten von S3 in Delta mit dem Makro Databricks_Copy_into in Delta
Tragen Sie zu diesem Repository bei
Der dbt-databricks
Adapter wurde getestet:
mit Python 3.7 oder höher.
Gegen Databricks SQL
und Databricks runtime releases 9.1 LTS
und später.
Sie können die für ein bestimmte Python -Modell verwendete Berechnung überschreiben, indem Sie die Eigenschaft http_path
in der Modellkonfiguration einstellen. Dies kann nützlich sein, wenn Sie beispielsweise ein Python -Modell auf einem Allzweck -Cluster ausführen möchten, während Sie SQL -Modelle in einem SQL -Lager ausführen. Beachten Sie, dass diese Funktion nur für Python -Modelle verfügbar ist.
def model(dbt, session): dbt.config( http_path="sql/protocolv1/..." )