DBT를 통해 데이터 분석가와 엔지니어는 소프트웨어 엔지니어가 응용 프로그램을 구축하는 데 사용하는 것과 동일한 관행을 사용하여 데이터를 변환 할 수 있습니다.
Databricks Lakehouse는 모든 데이터, 분석 및 AI 워크로드를 통합하는 간단한 플랫폼을 제공합니다.
dbt-databricks
어댑터에는 DBT가 Databricks에서 작업 할 수있는 모든 코드가 포함되어 있습니다. 이 어댑터는 DBT-Spark에서 수행 된 놀라운 작업을 기반으로합니다. 몇 가지 주요 기능은 다음과 같습니다.
쉬운 설정 . 어댑터가 순수한 Python API를 사용하므로 ODBC 드라이버를 설치할 필요가 없습니다.
기본적으로 열립니다 . 예를 들어, 기본적으로 Open 및 Performant Delta 테이블 형식을 사용합니다. 기본 증분 구체화 전략으로 MERGE
사용할 수 있도록하는 등 많은 이점이 있습니다.
Unity 카탈로그 지원 . DBT-Databricks> = 1.1.1은 Unity Catalog의 3 단계 네임 스페이스 (카탈로그 / 스키마 / 관계)를 지원하므로 원하는 방식으로 데이터를 구성하고 보호 할 수 있습니다.
성능 . 어댑터는 기본 벡터 화 광자 실행 엔진에 의해 자동으로 가속되는 SQL 표현을 생성합니다.
Databricks에서 DBT 프로젝트를 개발하는 경우 위에 언급 된 이유로 dbt-databricks
사용하는 것이 좋습니다.
dbt-spark
는 AWS EMR에서 호스팅되는 Apache Spark뿐만 아니라 Databricks와 함께 작동하는 적극적으로 개발 된 어댑터입니다.
PIP를 사용하여 설치 :
pip install dbt-databricks
최신 버전으로 업그레이드하십시오
pip install --upgrade dbt-databricks
your_profile_name:
target: dev
outputs:
dev:
type: databricks
catalog: [optional catalog name, if you are using Unity Catalog, only available in dbt-databricks>=1.1.1]
schema: [database/schema name]
host: [your.databrickshost.com]
http_path: [/sql/your/http/path]
token: [dapiXXXXXXXXXXXXXXXXXXXXXXX]
다음으로 빠른 시작으로 dbt-databricks
어댑터를 사용하여 실행할 수 있습니다.
첫 번째 DBT 프로젝트 개발
Databricks (Azure | AWS)와 함께 DBT 클라우드 사용
Databricks 워크 플로에서 DBT 생산 작업을 실행합니다
DBT-Databricks와 함께 Unity 카탈로그 사용
Databricks에서 DBT CI/CD에 GitHub 작업을 사용합니다
databricks_copy_into 매크로를 사용하여 S3에서 델타로 데이터로드
이 저장소에 기여하십시오
dbt-databricks
어댑터가 테스트되었습니다.
파이썬 3.7 이상.
Databricks SQL
및 Databricks runtime releases 9.1 LTS
.
http_path
속성을 모델 구성에서 설정하여 특정 Python 모델에 사용되는 컴퓨팅을 무시할 수 있습니다. 예를 들어 SQL 창고에서 SQL 모델을 실행하면서 다목적 클러스터에서 Python 모델을 실행하려는 경우 유용 할 수 있습니다. 이 기능은 파이썬 모델에서만 사용할 수 있습니다.
def model(dbt, session): dbt.config( http_path="sql/protocolv1/..." )