DBT memungkinkan analis data dan insinyur untuk mengubah data mereka menggunakan praktik yang sama dengan yang digunakan oleh insinyur perangkat lunak untuk membangun aplikasi.
Databricks Lakehouse menyediakan satu platform sederhana untuk menyatukan semua data, analitik, dan beban kerja AI Anda.
Adaptor dbt-databricks
berisi semua kode yang memungkinkan DBT untuk bekerja dengan databricks. Adaptor ini didasarkan pada pekerjaan luar biasa yang dilakukan di DBT-Spark. Beberapa fitur utama termasuk:
Pengaturan Mudah . Tidak perlu menginstal driver ODBC karena adaptor menggunakan API Python murni.
Buka secara default . Misalnya, ia menggunakan format tabel Delta Terbuka dan Performant secara default. Ini memiliki banyak manfaat, termasuk membiarkan Anda menggunakan MERGE
sebagai strategi materialisasi tambahan default.
Dukungan untuk Katalog Persatuan . DBT-Databricks> = 1.1.1 Mendukung namespace 3-level dari katalog Unity (katalog / skema / hubungan) sehingga Anda dapat mengatur dan mengamankan data Anda seperti yang Anda suka.
Pertunjukan . Adaptor menghasilkan ekspresi SQL yang secara otomatis dipercepat oleh mesin eksekusi foton asli, vektor.
Jika Anda mengembangkan proyek DBT di databricks, kami sarankan menggunakan dbt-databricks
untuk alasan yang disebutkan di atas.
dbt-spark
adalah adaptor yang dikembangkan secara aktif yang bekerja dengan databrick serta Apache Spark di mana saja di-host misalnya pada AWS EMR.
Instal menggunakan PIP:
pip install dbt-databricks
Tingkatkan ke versi terbaru
pip install --upgrade dbt-databricks
your_profile_name:
target: dev
outputs:
dev:
type: databricks
catalog: [optional catalog name, if you are using Unity Catalog, only available in dbt-databricks>=1.1.1]
schema: [database/schema name]
host: [your.databrickshost.com]
http_path: [/sql/your/http/path]
token: [dapiXXXXXXXXXXXXXXXXXXXXXXX]
Start cepat berikut ini akan membuat Anda bangun dan berjalan dengan adaptor dbt-databricks
:
Mengembangkan proyek DBT pertama Anda
Menggunakan DBT Cloud dengan databricks (Azure | AWS)
Menjalankan pekerjaan produksi DBT pada alur kerja databricks
Menggunakan Katalog Unity dengan DBT-Databricks
Menggunakan Tindakan GitHub untuk DBT CI/CD di Databricks
Memuat Data dari S3 ke Delta Menggunakan Makro Databricks_Copy_into
Berkontribusi pada repositori ini
Adaptor dbt-databricks
telah diuji:
dengan Python 3.7 atau lebih.
terhadap Databricks SQL
dan Databricks runtime releases 9.1 LTS
dan kemudian.
Anda dapat mengganti komputasi yang digunakan untuk model python tertentu dengan mengatur properti http_path
dalam konfigurasi model. Ini bisa berguna jika, misalnya, Anda ingin menjalankan model Python pada cluster semua tujuan, saat menjalankan model SQL di gudang SQL. Perhatikan bahwa kemampuan ini hanya tersedia untuk model Python.
def model(dbt, session): dbt.config( http_path="sql/protocolv1/..." )