يتيح DBT محللي البيانات والمهندسين تحويل بياناتهم باستخدام نفس الممارسات التي يستخدمها مهندسو البرمجيات لبناء التطبيقات.
يوفر Databricks Lakehouse منصة بسيطة واحدة لتوحيد جميع بياناتك والتحليلات وأعباء العمل من الذكاء الاصطناعي.
يحتوي محول dbt-databricks
على جميع الكود الذي يمكّن DBT من العمل مع Databricks. يعتمد هذا المحول على العمل المذهل الذي تم في DBT-Spark. تشمل بعض الميزات الرئيسية:
إعداد سهل . لا حاجة لتثبيت برنامج تشغيل ODBC حيث يستخدم المحول واجهات برمجة تطبيقات Python النقية.
افتح افتراضيًا . على سبيل المثال ، يستخدم تنسيق جدول Delta المفتوح والأداء افتراضيًا. هذا له العديد من الفوائد ، بما في ذلك السماح لك باستخدام MERGE
كاستراتيجية تجسيد تدريجي الافتراضية.
دعم كتالوج الوحدة . يدعم DBT-Databricks> = 1.1.1 مساحة الاسم المكونة من 3 مستوي من كتالوج الوحدة (الكتالوج / المخطط / العلاقات) حتى تتمكن من تنظيم وتأمين بياناتك بالطريقة التي تريدها.
أداء . يقوم المحول بإنشاء تعبيرات SQL التي يتم تسريعها تلقائيًا بواسطة محرك تنفيذ الفوتون الأصلي الموجه.
إذا كنت تقوم بتطوير مشروع DBT على Databricks ، فإننا نوصي باستخدام dbt-databricks
للأسباب المذكورة أعلاه.
dbt-spark
هو محول تم تطويره بشكل نشط يعمل مع Databricks وكذلك Apache Spark في أي مكان يتم استضافته على سبيل المثال على AWS EMR.
التثبيت باستخدام PIP:
pip install dbt-databricks
الترقية إلى أحدث إصدار
pip install --upgrade dbt-databricks
your_profile_name:
target: dev
outputs:
dev:
type: databricks
catalog: [optional catalog name, if you are using Unity Catalog, only available in dbt-databricks>=1.1.1]
schema: [database/schema name]
host: [your.databrickshost.com]
http_path: [/sql/your/http/path]
token: [dapiXXXXXXXXXXXXXXXXXXXXXXX]
هذه البدايات السريعة التالية ستجعلك تعمل مع محول dbt-databricks
:
تطوير أول مشروع DBT الخاص بك
باستخدام DBT Cloud مع Databricks (Azure | AWS)
تشغيل وظائف إنتاج DBT على سير عمل Databricks
باستخدام كتالوج الوحدة مع dbt-databricks
باستخدام إجراءات github لـ DBT CI/CD على Databricks
تحميل البيانات من S3 إلى دلتا باستخدام MACRO DATABRICKS_COPY_INTO
المساهمة في هذا المستودع
تم اختبار محول dbt-databricks
:
مع بيثون 3.7 أو أعلى.
ضد Databricks SQL
و Databricks runtime releases 9.1 LTS
وبعد ذلك.
يمكنك تجاوز الحساب المستخدم لنموذج Python معين عن طريق تعيين خاصية http_path
في تكوين النموذج. يمكن أن يكون هذا مفيدًا ، على سبيل المثال ، تريد تشغيل نموذج Python على مجموعة جميع الأغراض ، مع تشغيل نماذج SQL على مستودع SQL. لاحظ أن هذه الإمكانية متاحة فقط لنماذج Python.
def model(dbt, session): dbt.config( http_path="sql/protocolv1/..." )