DBT позволяет аналитикам данных и инженерам преобразовать свои данные, используя те же методы, которые инженеры -программисты используют для создания приложений.
Databricks Lakehouse предоставляет одну простую платформу для объединения всех ваших данных, аналитики и рабочих нагрузок искусственного интеллекта.
Адаптер dbt-databricks
содержит весь код, позволяющий DBT работать с DataBricks. Этот адаптер основан на удивительной работе, проделанной в DBT-Spark. Некоторые ключевые функции включают:
Легкая настройка . Не нужно устанавливать драйвер ODBC, поскольку адаптер использует Pure Python API.
Открыт по умолчанию . Например, он по умолчанию использует формат Delta Table Open и Performant Delta. Это имеет много преимуществ, в том числе позволить вам использовать MERGE
в качестве стратегии инкрементной материализации по умолчанию.
Поддержка каталога Unity . DBT-Databricks> = 1.1.1 поддерживает 3-уровневое пространство имен каталога Unity (каталог / схема / отношения), чтобы вы могли организовать и защищать свои данные так, как вам нравится.
Производительность . Адаптер генерирует экспрессии SQL, которые автоматически ускоряются нативным векторным двигателем выполнения фотонов.
Если вы разрабатываете проект DBT на DataBricks, мы рекомендуем использовать dbt-databricks
по причинам, отмеченным выше.
dbt-spark
-это активно разработанный адаптер, который работает с DataBricks, а также Apache Spark в любом месте, где он размещен, например, на AWS EMR.
Установите с помощью PIP:
pip install dbt-databricks
Обновить до последней версии
pip install --upgrade dbt-databricks
your_profile_name:
target: dev
outputs:
dev:
type: databricks
catalog: [optional catalog name, if you are using Unity Catalog, only available in dbt-databricks>=1.1.1]
schema: [database/schema name]
host: [your.databrickshost.com]
http_path: [/sql/your/http/path]
token: [dapiXXXXXXXXXXXXXXXXXXXXXXX]
Эти следующие быстрые запуска заставит вас работать с адаптером dbt-databricks
:
Разработка вашего первого проекта DBT
Использование DBT Cloud с DataBricks (Azure | AWS)
Запуск рабочих заданий по производству DBT на рабочих процессах DataBricks
Использование каталога Unity с DBT-Databricks
Использование действий GitHub для DBT CI/CD в DataBricks
Загрузка данных с S3 в Delta с использованием макроса dataBricks_copy_into
Внести свой вклад в это хранилище
Адаптер dbt-databricks
был протестирован:
с Python 3.7 или выше.
Против Databricks SQL
и Databricks runtime releases 9.1 LTS
и позже.
Вы можете переопределить вычислитель, используемый для конкретной модели Python, установив свойство http_path
в конфигурации модели. Это может быть полезно, если, например, вы хотите запустить модель Python в кластере All Acele, в то время как запуск моделей SQL на складе SQL. Обратите внимание, что эта возможность доступна только для моделей Python.
def model(dbt, session): dbt.config( http_path="sql/protocolv1/..." )