DBT使数据分析师和工程师能够使用软件工程师用来构建应用程序的相同实践来转换数据。
Databricks Lakehouse提供了一个简单的平台来统一所有数据,分析和AI工作负载。
dbt-databricks
适配器包含所有代码,使DBT可以与Databricks一起使用。该适配器基于DBT Spark所做的惊人工作。一些关键功能包括:
易于设置。无需安装ODBC驱动程序,因为适配器使用纯Python API。
默认打开。例如,默认情况下,它使用打开和性能的delta表格式。这有很多好处,包括让您将MERGE
用作默认的增量物质化策略。
支持Unity目录。 dbt-databricks> = 1.1.1支持Unity目录(目录 /架构 /关系)的3级命名空间,因此您可以按照自己喜欢的方式组织和保护数据。
表现。该适配器生成的SQL表达式会自动加速由本机矢量化的光子执行引擎加速。
如果您在Databricks上开发了DBT项目,则建议使用dbt-databricks
因为上述原因。
dbt-spark
是一个积极开发的适配器,可与Databricks以及Apache Spark一起使用。
使用PIP安装:
pip install dbt-databricks
升级到最新版本
pip install --upgrade dbt-databricks
your_profile_name:
target: dev
outputs:
dev:
type: databricks
catalog: [optional catalog name, if you are using Unity Catalog, only available in dbt-databricks>=1.1.1]
schema: [database/schema name]
host: [your.databrickshost.com]
http_path: [/sql/your/http/path]
token: [dapiXXXXXXXXXXXXXXXXXXXXXXX]
这些快速启动将使您使用dbt-databricks
适配器启动并运行:
开发您的第一个DBT项目
将DBT云与Databricks(Azure | AWS)一起使用
在Databricks工作流程上运行DBT生产作业
将Unity目录与DBT-Databricks使用
在数据链球上使用DBT CI/CD的GitHub操作
使用databricks_copy_into宏将S3的数据从S3加载到Delta
为此存储库做出贡献
dbt-databricks
适配器已经测试:
使用Python 3.7或更高。
针对Databricks SQL
和Databricks runtime releases 9.1 LTS
,然后再发布。
您可以通过在模型配置中设置http_path
属性来覆盖用于特定Python模型的计算。例如,如果您想在SQL Warehouse上运行SQL模型时,这可能会很有用。请注意,此功能仅适用于Python型号。
def model(dbt, session): dbt.config( http_path="sql/protocolv1/..." )