DBTにより、データアナリストとエンジニアは、ソフトウェアエンジニアがアプリケーションを構築するために使用するのと同じプラクティスを使用してデータを変換できます。
Databricks Lakehouseは、すべてのデータ、分析、AIワークロードを統合するための1つの簡単なプラットフォームを提供します。
dbt-databricks
アダプターには、DBTがDatabricksで動作できるようにするすべてのコードが含まれています。このアダプターは、DBT-Sparkで行われた驚くべき作業に基づいています。いくつかの重要な機能は次のとおりです。
簡単なセットアップ。 Adapterが純粋なPython APIを使用するため、ODBCドライバーをインストールする必要はありません。
デフォルトで開きます。たとえば、デフォルトでは、オープンおよびパフォーマンスのデルタテーブル形式を使用します。これには、デフォルトの増分材料化戦略としてMERGE
を使用できるなど、多くの利点があります。
Unityカタログのサポート。 dbt-databricks> = 1.1.1は、Unityカタログの3レベルの名前空間(カタログ /スキーマ /関係)をサポートしているため、データを好きなように整理して保護できます。
パフォーマンス。アダプターは、ネイティブのベクトル化された光子実行エンジンによって自動的に加速されるSQL式を生成します。
DatabricksでDBTプロジェクトを開発している場合は、上記の理由でdbt-databricks
を使用することをお勧めします。
dbt-spark
AWS EMRでホストされている場所で、DatabricksとApache Sparkで動作するアクティブに開発されたアダプターです。
PIPを使用してインストール:
pip install dbt-databricks
最新バージョンにアップグレードします
pip install --upgrade dbt-databricks
your_profile_name:
target: dev
outputs:
dev:
type: databricks
catalog: [optional catalog name, if you are using Unity Catalog, only available in dbt-databricks>=1.1.1]
schema: [database/schema name]
host: [your.databrickshost.com]
http_path: [/sql/your/http/path]
token: [dapiXXXXXXXXXXXXXXXXXXXXXXX]
これらのクイックスタートを次のように、 dbt-databricks
アダプターを使用して稼働します。
最初のDBTプロジェクトの開発
DatabricksでDBTクラウドを使用する(Azure | AWS)
DatabricksワークフローでDBT生産ジョブを実行します
DBT-DatabricksでUnityカタログを使用します
DatabricksでのDBT CI/CDのGitHubアクションを使用します
S3からDataBricks_Copy_into Macroを使用してDeltaにデータを読み込む
このリポジトリに貢献します
dbt-databricks
アダプターがテストされています。
Python 3.7以上。
Databricks SQL
およびDatabricks runtime releases 9.1 LTS
。
http_path
プロパティをモデル構成に設定することにより、特定のPythonモデルに使用される計算をオーバーライドできます。これは、たとえば、SQLウェアハウスでSQLモデルを実行している間に、All Python ClusterでPythonモデルを実行する場合に役立ちます。この機能は、Pythonモデルでのみ利用可能であることに注意してください。
def model(dbt, session): dbt.config( http_path="sql/protocolv1/..." )