Dagster는 통합 계보 및 관찰 가능성, 선언적 프로그래밍 모델 및 동급 최고의 테스트 가능성을 갖춘 전체 개발 수명 주기를 위한 클라우드 기반 데이터 파이프라인 조정자입니다.
테이블, 데이터 세트, 기계 학습 모델 및 보고서와 같은 데이터 자산을 개발하고 유지 관리하도록 설계되었습니다.
Dagster를 사용하면 구축하려는 데이터 자산을 Python 함수로 선언할 수 있습니다. 그런 다음 Dagster는 적시에 기능을 실행하고 자산을 최신 상태로 유지하는 데 도움을 줍니다.
다음은 Python에 정의된 세 가지 자산 그래프의 예입니다.
from dagster import asset
from pandas import DataFrame , read_html , get_dummies
from sklearn . linear_model import LinearRegression
@ asset
def country_populations () -> DataFrame :
df = read_html ( "https://tinyurl.com/mry64ebh" )[ 0 ]
df . columns = [ "country" , "pop2022" , "pop2023" , "change" , "continent" , "region" ]
df [ "change" ] = df [ "change" ]. str . rstrip ( "%" ). str . replace ( "−" , "-" ). astype ( "float" )
return df
@ asset
def continent_change_model ( country_populations : DataFrame ) -> LinearRegression :
data = country_populations . dropna ( subset = [ "change" ])
return LinearRegression (). fit ( get_dummies ( data [[ "continent" ]]), data [ "change" ])
@ asset
def continent_stats ( country_populations : DataFrame , continent_change_model : LinearRegression ) -> DataFrame :
result = country_populations . groupby ( "continent" ). sum ()
result [ "pop_change_factor" ] = continent_change_model . coef_
return result
Dagster의 웹 UI에 로드된 그래프:
Dagster는 로컬 개발, 단위 테스트, 통합 테스트, 스테이징 환경, 프로덕션까지 데이터 개발 수명 주기의 모든 단계에서 사용되도록 제작되었습니다.
Dagster를 처음 사용하는 경우 핵심 개념을 읽거나 실습 튜토리얼을 통해 학습하는 것이 좋습니다.
Dagster는 PyPI에서 사용할 수 있으며 공식적으로 Python 3.9부터 Python 3.12까지 지원합니다.
pip install dagster dagster-webserver
그러면 두 가지 패키지가 설치됩니다.
dagster
: 핵심 프로그래밍 모델입니다.dagster-webserver
: Dagster 작업 및 자산을 개발하고 운영하기 위한 Dagster의 웹 UI를 호스팅하는 서버입니다.Apple 실리콘 칩이 탑재된 Mac에서 실행하시나요? 여기에서 설치 세부사항을 확인하세요.
여기에서 '시작하기' 가이드를 포함한 전체 Dagster 문서를 찾을 수 있습니다.
선언적 접근 방식을 사용하여 생성해야 하는 주요 자산을 식별하거나 기본 작업 실행에 집중할 수 있습니다. 처음부터 CI/CD 모범 사례를 수용하세요. 재사용 가능한 구성 요소를 구축하고, 데이터 품질 문제를 발견하고, 버그를 조기에 신고하세요.
기술적으로나 조직적으로 확장 가능한 강력한 다중 테넌트, 다중 도구 엔진을 사용하여 파이프라인을 프로덕션에 적용하세요.
복잡성이 증가함에 따라 데이터에 대한 통제력을 유지하세요. 내장된 관찰 기능, 진단, 카탈로그 작성 및 계보를 통해 메타데이터를 하나의 도구로 중앙 집중화하세요. 문제를 발견하고 성능 개선 기회를 식별합니다.
Dagster는 오늘날 가장 널리 사용되는 데이터 도구에 대한 통합 라이브러리를 점점 더 많이 제공합니다. 이미 사용하고 있는 도구와 통합하고 인프라에 배포하세요.
Dagster를 사용하여 구축하는 수천 명의 다른 데이터 실무자와 소통하세요. 지식을 공유하고, 도움을 받고, 오픈 소스 프로젝트에 기여해 보세요. 주요 자료와 예정된 이벤트를 보려면 Dagster 커뮤니티 페이지를 확인하세요.
여기에서 우리 커뮤니티에 가입하세요:
개발을 위한 프로젝트 기여 또는 실행에 대한 자세한 내용은 기여 가이드를 확인하세요.
Dagster는 Apache 2.0 라이센스를 받았습니다.