DBT permite a los analistas de datos e ingenieros transformar sus datos utilizando las mismas prácticas que los ingenieros de software usan para crear aplicaciones.
Databricks Lakehouse proporciona una plataforma simple para unificar todos sus datos de trabajo de datos, análisis y IA.
El adaptador dbt-databricks
contiene todo el código que permite que DBT funcione con Databricks. Este adaptador se basa en el increíble trabajo realizado en DBT-Spark. Algunas características clave incluyen:
Configuración fácil . No es necesario instalar un controlador ODBC ya que el adaptador utiliza API PURO PYTHON.
Abierto por defecto . Por ejemplo, utiliza el formato de tabla Delta abierto y perfilante de forma predeterminada. Esto tiene muchos beneficios, incluido el uso de MERGE
como la estrategia de materialización incremental predeterminada.
Apoyo para el catálogo de Unity . DBT-Databricks> = 1.1.1 admite el espacio de nombres de 3 niveles del catálogo de Unity (catálogo / esquema / relaciones) para que pueda organizar y asegurar sus datos como desee.
Actuación . El adaptador genera expresiones SQL que se aceleran automáticamente por el motor nativo de ejecución de fotones vectorizados.
Si está desarrollando un proyecto DBT en Databricks, le recomendamos usar dbt-databricks
por las razones mencionadas anteriormente.
dbt-spark
es un adaptador desarrollado activamente que funciona con Databricks y Apache Spark en cualquier lugar donde esté alojado, por ejemplo, en AWS EMR.
Instalar usando PIP:
pip install dbt-databricks
Actualizar a la última versión
pip install --upgrade dbt-databricks
your_profile_name:
target: dev
outputs:
dev:
type: databricks
catalog: [optional catalog name, if you are using Unity Catalog, only available in dbt-databricks>=1.1.1]
schema: [database/schema name]
host: [your.databrickshost.com]
http_path: [/sql/your/http/path]
token: [dapiXXXXXXXXXXXXXXXXXXXXXXX]
Estas siguientes arranque rápido lo pondrán en funcionamiento con el adaptador dbt-databricks
:
Desarrollar su primer proyecto DBT
Uso de DBT Cloud con Databricks (Azure | AWS)
Ejecución de trabajos de producción DBT en flujos de trabajo de Databricks
Usando un catálogo de Unity con DBT-Databricks
Uso de acciones de GitHub para DBT CI/CD en Databricks
Carga de datos de S3 en delta utilizando Databricks_Copy_into Macro
Contribuir a este repositorio
El adaptador dbt-databricks
ha sido probado:
con Python 3.7 o superior.
con Databricks SQL
y Databricks runtime releases 9.1 LTS
y más tarde.
Puede anular el cómputo utilizado para un modelo de Python específico estableciendo la propiedad http_path
en la configuración del modelo. Esto puede ser útil si, por ejemplo, desea ejecutar un modelo Python en un clúster de todo propósito, mientras se ejecuta modelos SQL en un almacén SQL. Tenga en cuenta que esta capacidad solo está disponible para los modelos Python.
def model(dbt, session): dbt.config( http_path="sql/protocolv1/..." )