O DBT permite que analistas e engenheiros de dados transformem seus dados usando as mesmas práticas que os engenheiros de software usam para criar aplicativos.
O banco de dados Lakehouse fornece uma plataforma simples para unificar todos os seus dados, análises e cargas de trabalho de IA.
O adaptador dbt-databricks
contém todo o código que permite que o DBT trabalhe com o Databricks. Este adaptador é baseado no incrível trabalho realizado no DBT-SPARK. Alguns recursos importantes incluem:
Configuração fácil . Não há necessidade de instalar um driver ODBC, pois o adaptador usa APIs Python Pure.
Aberto por padrão . Por exemplo, ele usa o formato da tabela Delta Open e Performant por padrão. Isso tem muitos benefícios, incluindo permitir que você use MERGE
como a estratégia de materialização incremental padrão.
Apoio ao catálogo da unidade . DBT-Databricks> = 1.1.1 suporta o espaço para nome de 3 níveis do catálogo da unidade (catálogo / esquema / relações) para que você possa organizar e proteger seus dados da maneira que você gosta.
Desempenho . O adaptador gera expressões SQL que são automaticamente aceleradas pelo mecanismo de execução de fótons vetorizado nativo.
Se você estiver desenvolvendo um projeto DBT no Databricks, recomendamos o uso de dbt-databricks
pelos motivos mencionados acima.
dbt-spark
é um adaptador desenvolvido ativamente que funciona com o Databricks, bem como o Apache Spark em qualquer lugar que ele esteja hospedado, por exemplo, no AWS EMR.
Instale usando PIP:
pip install dbt-databricks
Atualize para a versão mais recente
pip install --upgrade dbt-databricks
your_profile_name:
target: dev
outputs:
dev:
type: databricks
catalog: [optional catalog name, if you are using Unity Catalog, only available in dbt-databricks>=1.1.1]
schema: [database/schema name]
host: [your.databrickshost.com]
http_path: [/sql/your/http/path]
token: [dapiXXXXXXXXXXXXXXXXXXXXXXX]
Estes seguintes partidas rápidas o levarão a funcionar com o adaptador dbt-databricks
:
Desenvolvendo seu primeiro projeto DBT
Usando o DBT Cloud com Databricks (Azure | AWS)
Executando trabalhos de produção DBT nos fluxos de trabalho do Databricks
Usando o catálogo de unidades com DBT-Databricks
Usando ações do GitHub para DBT CI/CD em Databricks
Carregando dados de S3 para delta usando a macro Databricks_copy_into
Contribuir para este repositório
O adaptador dbt-databricks
foi testado:
com Python 3.7 ou acima.
Contra Databricks SQL
e Databricks runtime releases 9.1 LTS
e posteriormente.
Você pode substituir a computação usada para um modelo Python específico, definindo a propriedade http_path
na configuração do modelo. Isso pode ser útil se, por exemplo, você quiser executar um modelo Python em um cluster de todos os objetivos, enquanto executa os modelos SQL em um armazém SQL. Observe que esse recurso está disponível apenas para modelos Python.
def model(dbt, session): dbt.config( http_path="sql/protocolv1/..." )