DBT使數據分析師和工程師能夠使用軟件工程師用來構建應用程序的相同實踐來轉換數據。
Databricks Lakehouse提供了一個簡單的平台來統一所有數據,分析和AI工作負載。
dbt-databricks
適配器包含所有代碼,使DBT可以與Databricks一起使用。該適配器基於DBT Spark所做的驚人工作。一些關鍵功能包括:
易於設置。無需安裝ODBC驅動程序,因為適配器使用純Python API。
默認打開。例如,默認情況下,它使用打開和性能的delta表格式。這有很多好處,包括讓您將MERGE
用作默認的增量物質化策略。
支持Unity目錄。 dbt-databricks> = 1.1.1支持Unity目錄(目錄 /架構 /關係)的3級命名空間,因此您可以按照自己喜歡的方式組織和保護數據。
表現。該適配器生成的SQL表達式會自動加速由本機矢量化的光子執行引擎加速。
如果您在Databricks上開發了DBT項目,則建議使用dbt-databricks
因為上述原因。
dbt-spark
是一個積極開發的適配器,可與Databricks以及Apache Spark一起使用。
使用PIP安裝:
pip install dbt-databricks
升級到最新版本
pip install --upgrade dbt-databricks
your_profile_name:
target: dev
outputs:
dev:
type: databricks
catalog: [optional catalog name, if you are using Unity Catalog, only available in dbt-databricks>=1.1.1]
schema: [database/schema name]
host: [your.databrickshost.com]
http_path: [/sql/your/http/path]
token: [dapiXXXXXXXXXXXXXXXXXXXXXXX]
這些快速啟動將使您使用dbt-databricks
適配器啟動並運行:
開發您的第一個DBT項目
將DBT雲與Databricks(Azure | AWS)一起使用
在Databricks工作流程上運行DBT生產作業
將Unity目錄與DBT-Databricks使用
在數據鏈球上使用DBT CI/CD的GitHub操作
使用databricks_copy_into宏將S3的數據從S3加載到Delta
為此存儲庫做出貢獻
dbt-databricks
適配器已經測試:
使用Python 3.7或更高。
針對Databricks SQL
和Databricks runtime releases 9.1 LTS
,然後再發布。
您可以通過在模型配置中設置http_path
屬性來覆蓋用於特定Python模型的計算。例如,如果您想在SQL Warehouse上運行SQL模型時,這可能會很有用。請注意,此功能僅適用於Python型號。
def model(dbt, session): dbt.config( http_path="sql/protocolv1/..." )