멋진 Apache Airflow
이는 Apache Airflow에 대한 선별된 리소스 목록입니다. 포함되어야 할 항목이 있으면 자유롭게 기여해 주세요. 항목은 일반적으로 각 섹션의 상단에 추가되어 더 새로운 항목이 더 눈에 띄게 표시됩니다.
내용물
- 중요한 링크
- Airflow 배포 솔루션
- 소개 및 튜토리얼
- Airflow Summit 2020 동영상
- 모범 사례, 교훈 및 멋진 사용 사례
- 책, 블로그, 팟캐스트 등
- 슬라이드 데크 프리젠테이션 및 온라인 비디오
- 라이브러리, 후크, 유틸리티
- 모임
- 상용 Airflow-as-a-service 제공업체
- Cloud Composer 리소스
- 영어 이외의 리소스
중요한 링크
- 소스 코드(최신 안정 릴리스 1.10.12)
- 문서(공식 웹사이트도 있음)
- 컨플루언스 페이지
- 슬랙 작업공간
Airflow 배포 솔루션
- IBM Cloud에 Airflow 설치 - IBM Bitnami Charts를 사용하여 IBM Cloud에 빠르고 쉽게 배포
- Kubernetes에서 Airflow를 실행하는 세 가지 방법 - Tim van de Keer가 Kubernetes에 Airflow를 배포하는 여러 가지 방법을 안내합니다.
- Azure에서 Apache Airflow 다중 계층 무료 배포 - 프로덕션 사용 사례를 위해 Azure에서 Airflow 배포를 위한 원클릭 솔루션을 제공하는 Bitnami의 무료 ARM(Azure Resource Manager) 템플릿입니다.
- KubernetesExecutor Helm 차트 - 더 많은 k8s 기본 경험과 보완적인 KubernetesExecutor Docker 이미지를 위해 KubernetesExecutor를 사용하는 간결한 Helm 차트입니다.
- Stable Celery Helm Chart - 공식 안정 차트 저장소에 있는 선별된 Helm 차트입니다.
- Puckel의 Docker 이미지 - @Puckel_의 잘 만들어진 Docker 이미지는 많은 Airflow 설치의 기반이 되었습니다. 정기적으로 업데이트되며 공식 Apache 릴리스를 면밀히 추적합니다.
- Airflow 배포를 위한 Kubernetes 사용자 정의 연산자 - Kubernetes에 Airflow를 배포하기 위한 Kubernetes 사용자 정의 컨트롤러(연산자 패턴이라고도 함)입니다.
- airflow-pipeline - Spark 및 Hadoop용으로 사전 구성된 Airflow Docker 컨테이너입니다.
datagovsg/airflow-pipeline
에서 도커를 가져올 수 있습니다. - aws-airflow-stack - CeleryExecutor를 사용한 AWS 기반 Airflow 클러스터 배포입니다. CloudFormation을 사용하면 몇 번의 클릭만으로 배포됩니다.
- kube-airflow - 이 저장소에는 Airflow Docker 이미지(Puckel의 작업을 기반으로 한 것으로 보임)와 Kubernetes 서비스 정의가 모두 포함되어 있습니다. mumoshu의 저장소는 최근 업데이트되지 않았지만 최신 릴리스를 기반으로 하는 수많은 포크가 있습니다.
- airflow-on-kubernetes - Kubernetes에서 Airflow 실행과 관련된 모든 관련 리소스, 스크립트 및 프로젝트에 대한 가이드입니다.
- airflow-k8s-executor-on-GKE - Helm을 사용하여 Google Kubernetes Engine에 배포된 확장 가능하고 유지 관리가 적은 공기 흐름 kubernetes 실행기 환경을 얻기 위한 자세한 튜토리얼입니다.
- airflow-cookbook - Airflow 배포를 위한 Chef 요리책입니다.
- Apache Mesos 위에서 Airflow 실행 - 모든 Airflow 구성 요소를 실행하도록 Mesos를 구성하는 방법을 설명하는 블로그입니다.
- Apache Airflow를 Apache Ambari와 통합 - Mykola Mykhalov는 Apache Ambari를 사용하여 Airflow 인스턴스를 구성하고 배포하는 과정을 안내합니다.
- 천문학자 플랫폼 - Kubernetes의 서비스로서의 Apache Airflow. 자세한 내용은 https://www.astronomer.io를 참조하세요.
- Bitnami Airflow Docker 이미지 - Bitnami에서 유지관리하는 Airflow용 안전한 최신 Docker 이미지입니다.
- Bitnami Airflow Scheduler Docker 이미지 - Bitnami에서 유지관리하는 Airflow Scheduler용 안전한 최신 Docker 이미지입니다.
- Bitnami Airflow Worker Docker 이미지 - Bitnami에서 유지관리하는 Airflow Worker용 안전한 최신 Docker 이미지입니다. CeleryExecutor docker-compose 배포는 여기에서 사용할 수 있습니다.
- Python PEX 파일을 통해 Apache Airflow 배포 및 배포 - Apache Airflow를 PEX 파일로 번들, 배포 및 배포하는 단계가 포함된 예제 저장소입니다.
- Airflow용 KEDA 소개 - KEDA 스케일러 시스템을 사용하여 Airflow 메타데이터 데이터베이스에 저장된 데이터를 기반으로 셀러리 작업자의 자동 크기 조정을 활성화하는 방법입니다.
- Airflow-Component - 컴퓨팅 노드에 통합 Airflow-Airflow(RabbitMQ) 참조 아키텍처의 경량 설치 프로그램입니다.
소개 및 튜토리얼
- Apache 공기 흐름 모니터링 지표 - Prometheus를 통해 Grafana 대시보드에서 공기 흐름 배포를 모니터링하기 위해 기존 Airflow 통계 지표를 활용하는 방법에 대한 maxcotec의 2부작 시리즈입니다. 또한 사용자 정의 측정항목을 만드는 방법도 알아보세요.
- Airflow 소개 - Apache Airflow의 초보자와 중급 사용자를 위한 maxcotec의 웹 튜토리얼 시리즈입니다.
- 트랜잭션 데이터에 대한 데이터 분석을 위한 Apache Airflow를 사용한 ETL. Kimaru Thagana는 더미 전자상거래 상점의 거래, 사용자 및 제품 데이터를 사용하여 Apache Airflow를 사용하여 ETL 프로세스를 수행하는 실제 사례를 다룹니다. 데이터는 플라스크 API를 통해 제공됩니다.
- Apache Airflow 2020-10월을 사용하여 더 나은 데이터 파이프라인 구축 시작 - Naman Gupta가 Airflow의 기본 사항과 개념을 다룹니다.
- Airflow 저장소 템플릿 - 유효한 DAG 및 플러그인에 대한 린트 및 테스트를 포함하여 Airflow를 사용하여 로컬로 개발하기 위한 상용구 저장소입니다. 복제하고
make start-airflow
실행하여 시작하세요! 일부 CI 작업을 추가하여 코드를 배포하면 완료됩니다. - Apache Airflow가 Celery 작업자에게 작업을 배포하는 방법 - 분산 아키텍처에서 예약부터 성공까지 작업 인스턴스가 수행하는 단계에 대한 간단한 설명입니다.
- EMR에서 실행되는 YARN에 원격 Spark 제출 - Azhaguselvan은 Airflow를 사용하여 기존 EMR 클러스터에 Spark 작업을 제출하는 과정을 안내합니다.
- Apache Mesos 위에서 Airflow 실행 및 후속작인 Agraj Mangal의 Mesos, Airflow & Docker는 Apache Mesos 위에서 Airflow를 실행하는 방법에 대한 간략한 개요입니다.
- Quizlet의 Dustin Stansbury는 일반적으로 작업 흐름 관리자가 수행하는 작업, Quizlet이 Airflow를 선택한 방법, Airflow의 주요 개념 둘러보기, Quizlet이 현재 실제로 Airflow를 사용하는 방법을 다루는 4부작 시리즈를 작성했습니다.
- CRON 너머: 워크플로 관리 시스템 소개
- Quizlet이 데이터 워크플로 실행을 위해 Apache Airflow를 선택한 이유
- Apache Airflow의 주요 개념 이해
- Quizlet이 실제로 Apache Airflow를 사용하는 방법
- Apache Airflow를 Databricks와 통합 - 이 튜토리얼은 특히 Databricks의 Spark 솔루션에 중점을 두고 있지만 Airflow 기본 사항에 대한 합리적인 개요를 제공하고 타사 솔루션이 Airflow에 빠르게 통합될 수 있는 방법을 보여줍니다.
- Apache Airflow 2.0 튜토리얼 - 이 문서에서는 Airflow의 기본 개념을 설명하고 Airflow가 해결하는 문제에 대해 논의합니다.
- Apache Airflow 테스트 및 디버깅 - Airflow 코드에 단위 테스트, 모의 및 디버깅을 적용하는 방법을 설명하는 문서입니다.
- Apache Airflow를 사용하여 워크플로 개발 시작 - 이 간략한 입문 튜토리얼에서는 DAG, 연산자, 센서를 사용하여 데이터 파이프라인 및 처리 워크플로를 생성하고 Xcoms를 사용하여 연산자 간 통신을 수행하는 방법을 다룹니다.
- Airflow + Google Cloud Platform + Docker 시작하기 - Jayce Jiang의 단계별 소개입니다.
- TDD(테스트 중심 개발)를 통해 Airflow에서 데이터 파이프라인을 개발하는 방법 - TDD를 사용하여 판매 데이터 파이프라인을 단계별로 구축하는 방법과 마지막으로 Github Actions를 사용하여 간단한 CI 워크플로를 구성하는 방법을 알아보세요.
Airflow Summit 2020 동영상
첫 번째 Airflow Summit 2020이 2020년 7월에 열렸습니다. 이는 전 세계 9개 Airflow Meetup(멜버른, 도쿄, 방갈로르, 바르샤바, 암스테르담, 런던, NYC, BayArea)이 공동 주최한 진정한 글로벌 온라인 이벤트였습니다. ).
40개 이상의 강연과 3개의 워크숍이 진행되었습니다. YouTube Airflow Summit 2020 재생 목록으로 대화 녹음을 확인하거나 여기에서 개별 대화를 볼 수 있습니다.
- 기조연설: 그때와 지금의 공기 흐름
- 서비스형 스케줄러 - EA Digital Platform의 Apache Airflow
- 기조연설: 대기업이 ML 및 ETL 파이프라인에 Airflow를 사용하는 방법
- 재미와 이익을 위해 계보를 갖춘 데이터 DAG
- Kubernetes의 Airflow: 워크플로 컨테이너화
- Airflow @ PayPal을 사용한 데이터 흐름
- 규모에 맞게 민주화된 데이터 워크플로우
- Airflow 기반 Spark 작업을 Kubernetes로 마이그레이션 - 기본 방식
- 기조 연설: 공기 흐름의 미래
- 안전한 방식으로 Airflow DAG 실행
- 기조연설: D&I를 통해 Airflow를 지속 가능한 프로젝트로 만들기
- Airflow CI/CD: Github에서 Cloud Composer로(안전하게)
- 데이터 엔지니어를 위한 고급 Apache Superset
- 데모: 줄 줄이기, 시각적 DAG 편집기
- AIP-31: 공기 흐름 기능 DAG 정의
- Airflow를 이용한 자율주행
- Kubernetes의 cron에서 Airflow까지: 스타트업 스토리
- 기류 관측성 달성
- Apache Airflow를 사용한 머신러닝
- Airflow: 게임 세계의 야수 캐릭터
- 효과적인 교차 DAG 종속성
- 오픈소스가 우리에게 비즈니스에 관해 가르쳐준 것
- 요구 사항의 데이터 엔지니어링 계층 구조
- 재사용 가능하고 신뢰할 수 있는 ELT 파이프라인 구축(템플릿 기반 접근 방식)
- Airflow 워크플로 테스트 - 프로덕션에 들어가기 전에 DAG가 작동하는지 확인
- Airflow에 실행자 추가: 기여자 오버플로 예외
- Airflow 백포트 제공업체로 마이그레이션
- Zero에서 Airflow로: ML 플랫폼 부트스트래핑
- Airflow는 분석 파이프라인과 완벽하게 일치합니다.
- Société Générale의 Airflow: 은행 환경의 오픈 소스 조정 솔루션
- Pinterest의 차세대 워크플로 시스템인 Airflow
- Airflow의 사용자 경험 개선
- 오래된 DAG에 새로운 기술 가르치기
- 에어플로우 회원에게 무엇이든 물어보세요
- Airflow를 사용하여 데이터 집약적인 도구 개발 속도 향상
- 파이프라인 위의 파이프라인: Airflow DAG를 위한 민첩한 CI/CD 워크플로
- Apache Airflow용 프로덕션 Docker 이미지
- 탄력적인 ETL 도구로서의 Airflow
- Wrike에서 데이터 파이프라인의 신뢰성에 대해 어떻게 추론합니까?
- Databand를 사용하여 Airflow 관측성 달성
- S3에서 BigQuery까지 - 처음 Airflow 사용자가 데이터 파이프라인을 성공적으로 구현한 방법
모범 사례, 교훈 및 멋진 사용 사례
- Apache Airflow와 함께 DuckDB를 가장 잘 사용하는 방법 - DuckDB를 Airflow 작업에 통합하는 방법에 대한 팁입니다.
- Airflow Dag Python 패키지 관리 - 100개 이상의 Dag에서 Python 패키지 종속성을 관리하는 것은 어려울 수 있습니다. 어떤 패키지가 어떤 dag에서 사용되는지 추적하기 어렵고 DAG 제거/업그레이드 중에 정리하기가 어렵습니다. KubernetesPodOperator 및 DockerOperator가 이 문제를 어떻게 해결할 수 있는지 알아보세요.
- Airflow Dag 관리 및 버전 관리 - Git 하위 모듈을 사용하여 DAG 릴리스 프로세스를 효율적으로 관리합니다.
- Airflow 2부 테스트 - Chandu Kavar와 Sarang Shinde가 통합 테스트와 엔드투엔드 파이프라인 테스트에 대해 설명했습니다.
- Robinhood의 공기 흐름 업그레이드 및 확장 - Abishek Ray는 Robinhood가 가동 중지 시간을 최소화하면서 생산 공기 흐름을 업그레이드하는 방법을 설명합니다.
- 우리는 모두 Airflow를 잘못 사용하고 있으며 이를 해결하는 방법 - Bluecore의 Jessica Laughlin은 Airflow 설계와 관련된 세 가지 엔지니어링 문제와 두 가지 설계 패턴에서 KubernetesPodOperator를 사용하여 이를 해결하는 방법을 공유합니다.
- 데이터 계보 시작하기 - Dailymotion의 Germain Tanguy는 Apache Airflow에 통합된 데이터 계보 프로토타입을 공유합니다.
- 데이터 엔지니어, 데이터 분석가, 데이터 과학자 간의 협업 - Dailymotion의 Germain Tanguy가 Apache Airflow와의 협업을 통해 프로덕션 환경에서 효율적으로 릴리스하는 방법을 공유합니다.
- Amazon의 Container Repository에서 Apache Airflow의 Docker Operator 사용 - Lucid의 Brian Campbell이 AWS의 ECR 서비스를 Airflow의 DockerOperator와 통합하는 방법에 대한 팁을 제공합니다.
- Airflow: 잘 알려지지 않은 팁, 요령 및 모범 사례 - Kaxil Naik은 Airflow 사용에 대한 잘 알려지지 않았지만 매우 유용한 팁과 모범 사례를 설명했습니다.
- 경계 레이어:선언적 공기 흐름 작업 흐름 - Kevin McHale은 선언적 작업 흐름을 사용하여 공기 흐름 dag를 생성하는 오픈 소스 프로젝트 경계 계층을 설명했습니다.
- Airflow 테스트 1부 - Chandu Kavar는 Airflow의 다양한 테스트 범주를 설명했습니다. 여기에는 DAG 유효성 검사 테스트, DAG 정의 테스트 및 단위 테스트가 포함됩니다.
- Airflow UI 보안 개선 - WePay의 Joy Gao는 RBAC(역할 기반 액세스 제어)의 필요성과 이를 Airflow에 도입한 방법을 자세히 설명합니다.
- 인도에서 질병 발생을 추적하기 위해 Apache Airflow에서 워크플로를 만드는 방법 - Vinayak Mehta는 SocialCops가 Airflow를 사용하여 인도 보건가족부를 수집하여 질병 발생 가능성에 대한 파생 데이터를 생성하는 방법을 자세히 설명합니다.
- Airflow, 메타 데이터 엔지니어링 및 세계 최대 민주주의를 위한 데이터 플랫폼 - Vinayak Mehta는 데이터 엔지니어링 패턴(메타 데이터 엔지니어링)을 식별하여 DAG 생성을 자동화하고 이것이 SocialCops가 인도 국회의원과 국가 데이터 플랫폼인 DISHA를 지원하는 데 어떻게 도움이 되었는지에 대해 이야기합니다. MLA는 42개 국가 수준 계획의 진행 상황을 모니터링합니다.
- Airflow-ing 및 Airflow 2부에서 배운 교훈 - Nehil Jain은 워크플로 스케줄러의 가치, Airflow로 작업하면서 발견한 몇 가지 모범 사례 및 함정을 다루는 두 부분으로 구성된 시리즈를 작성했습니다. 특히 두 번째 기사에는 많은 제작 팁이 포함되어 있습니다.
- Robinhood가 Airflow를 사용하는 이유 - Vineet Goel은 금융 거래 플랫폼 Robinhood가 대체 작업 스케줄러 대신 Airflow를 선택한 이유를 설명합니다.
- Cron에서 Airflow로 마이그레이션하면서 배운 내용 - Katie Macias는 Cron에서 Airflow로의 VideoAmp 데이터 엔지니어링 여정을 설명합니다.
- 내부 정보: Qubole에서 AIR 구축 - Sreenath Kamath와 Rajat Venkatesh는 Airflow를 기반으로 Qubole의 데이터 검색, 통찰력 및 추천 플랫폼을 구축하는 방법에 대해 글을 썼습니다.
- 공기 흐름: 왜 아무것도 작동하지 않나요? - TL;DR Airflow의 SubDagOperator로 인해 교착 상태 발생(Jessica Laughlin 작성) - 문제 진단 방법에 대한 유용한 팁과 함께 문제가 있는 Airflow DAG 문제 해결에 대해 자세히 알아봅니다.
- 분산 시스템을 위한 외부 스케줄러인 Apache Airflow - Arunkumar는 분산 시스템을 위한 간단한 외부 스케줄러로 Airflow를 사용할 것을 제안합니다.
- Sift가 Apache Airflow를 사용하여 수천 개의 모델을 훈련하는 방법 - 기계 학습 모델 파이프라인을 위한 Sift Science의 배포 전략 요약입니다.
- Pandora의 Apache Airflow - Ace Haidrey가 Pandora가 Airflow를 선택한 이유를 설명하고 배포 및 그 기반 인프라에 대한 자세한 분석을 제공합니다.
- 시카고 데이터 엔지니어링 분야의 Airflow 교훈 - Alison Stanton은 Airflow 작업에서 문제를 방지하기 위한 팁 목록을 제공합니다.
- 데이터의 지옥: Airflow를 사용한 7가지 데이터 테스트 지옥 - ING의 도매 금융 고급 분석 팀은 배포 전에 Airflow DAG를 고문 테스트하는 방법을 자세히 설명합니다.
- 데이터 품질 검사기 - Antoine Augusti는 데이터 세트의 완전성, 일관성, 적시성, 고유성, 유효성 및 정확성을 테스트하기 위해 Airflow 위에 구축된 프레임워크 drivy를 설명합니다.
- BigQuery 및 Airflow를 사용하여 WePay의 데이터 웨어하우스 구축 - 뛰어난 Chris Riccomini가 Airflow를 최초로 채택한 업체 중 하나인 WePay가 Google Cloud Compute 환경에 통합된 방법을 설명합니다.
- Apache Airflow를 사용하여 공공 부문에서 데이터 인프라 생성 - 불행하게도 판매 홍보 톤이 매우 높음에도 불구하고 이 기사 블로그 게시물에서는 비영리 데이터 조직인 ARGO Labs가 공공 부문 데이터에서 ETLing을 위해 Airflow를 활용하는 방법을 설명합니다.
- 공기 흐름이 있는 ETL - ETL 핵심 원칙과 Kimball, Data Vault on Hive 및 몇 가지 간단한 예를 포함한 여러 엔드투엔드 도커 기반 예입니다.
- Apache Airflow를 사용하여 BigQuery용 데이터를 집계하는 방법 - Airflow를 Google BigQuery와 함께 사용하여 데이터 스튜디오 대시보드를 구동하는 방법의 예입니다.
- Twitter에서 워크플로를 사용하여 ML 생산 - Twitter가 Airflow 웹 인터페이스에 내장된 맞춤 연산자 및 맞춤 UI를 포함하여 Twitter가 ML 워크플로에 Airflow를 사용하는 이유와 방법에 대한 심층적인 게시물입니다.
- Lyft에서 Apache Airflow 실행 - Lyft가 프로덕션(모니터링, 사용자 정의 등)에서 Apache Airflow를 운영하는 방법에 대한 개요를 제공합니다.
- 데이터 파이프라인을 구축하고 실행하기 위해 Azure에 Apache Airflow 배포 - Azure에서 Airflow를 실행하는 방법에 대해 설명합니다.
- Zen of Python 및 Apache Airflow - Zen of Python을 Airflow 코드에 적용하는 방법에 대한 블로그 게시물입니다.
- DAG 수준 액세스로 Apache Airflow UI 보호 - Airflow DAG 수준 액세스 및 Lyft가 이를 사용하는 방법에 대한 블로그 게시물입니다.
- 가동 중지 시간 없이 Airflow 업그레이드 - 가동 중지 시간 없이 Airflow를 배포하는 방법에 대한 자세한 문서입니다.
- Apache Airflow를 사용하여 프로덕션 수준 ETL 파이프라인 플랫폼 구축 - 이 게시물에서는 Cerner의 시스템 관리 팀이 Airflow를 사용하는 방법을 설명합니다.
- Kubernetes(Local, EKS, AKS)의 최소한의 Airflow - 최소한의 설정으로 로컬 Kubernetes, AWS EKS 및 Azure AKS에 Airflow를 배포하는 방법에 대한 문서입니다.
- Airflow DAG 단일 저장소 분리 - 이 게시물에서는 S3를 통해 여러 git 저장소에서 Airflow DAG 관리를 지원하는 방법을 설명합니다.
- Apache Airflow Scheduler의 성능 향상 - Databand가 DAG 구문 분석 시간을 10배 단축할 수 있었던 모험 이야기
- SSENSE가 Apache Airflow를 사용하여 AWS에서 데이터 계보를 수행하는 방법 - Apache Arflow를 사용하여 AWS에서 데이터 레이크를 설계하고 관리하는 기본 주제를 탐색합니다.
- Prometheus, StatsD 및 Grafana를 사용하여 Airflow 모니터링 - Databand를 통해 프로덕션 클러스터에 대한 운영 대시보드를 설정하고 Airflow에 대한 높은 수준의 가시성을 확보하는 방법에 대한 가이드입니다.
- Apache Airflow를 사용하여 Hurb에서 복잡한 작업 조정 - 이 게시물에서는 Hurb가 Apache Airflow를 사용하여 복잡한 작업을 조정하는 방법과 DAG 동적 생성을 활용하여 개발 속도를 향상시키는 방법을 보여줍니다.
- Apache Airflow를 사용하여 CrateDB에서 S3로 데이터 내보내기 자동화 Apache Airflow를 사용하여 CrateDB에서 Amazon S3로 정기적인 데이터 내보내기와 같은 반복 쿼리를 자동화하는 방법에 대한 자습서입니다.
- CrateDB 및 Apache Airflow를 사용한 데이터 보존 정책 구현 CrateDB 및 Apache Airflow를 사용하여 효과적인 데이터 보존 정책을 구현하는 방법에 대한 단계별 튜토리얼입니다.
- S3에서 CrateDB로 NYC 택시 데이터 수집 - S3에서 CrateDB로 CSV 파일을 로드하여 Airflow에서 데이터베이스 수집 파이프라인을 구축하는 방법을 설명합니다.
책, 블로그, 팟캐스트 등
- Apache Airflow를 사용한 데이터 파이프라인 - Airflow에 관한 Manning 서적(2019년 9월 조기 액세스)입니다.
- Airflow 팟캐스트 - Airflow에 관한 모든 것을 논의하는 준정기 팟캐스트입니다.
- Maxime Beauchemin - Apache Airflow의 철학에 대한 통찰력을 제공하는 매체에 대한 Maxime의 블로그입니다.
- Robert Chang - Apache Airflow를 사용한 데이터 엔지니어링에 대한 블로그 게시물로, 이유를 설명하고 코드에 예제가 있습니다.
- Kubernetes Executor를 사용하여 Airflow 로그 처리 - 복잡한 인프라를 생성하지 않고도 KubernetesExecutor를 사용할 때 원격 S3 로깅을 설정하는 방법을 간략하게 설명하는 블로그 게시물입니다.
- Airflow 2.0: 재설계된 DAG 작성 - Airflow 2.0에서 DAG를 작성하는 새로운 방법에 대한 블로그 게시물입니다.
- Airflow 2.0 공급자 - Airflow 2.0의 공급자 패키지에 대한 블로그 게시물입니다.
슬라이드 데크 프리젠테이션 및 온라인 비디오
- 2020-2월: Apache Airflow @ Umuzi.org - Sheena O'Connell이 남아프리카에 기반을 둔 기술 부트캠프인 Umuzi가 Airflow를 사용하는 방법에 대해 논의합니다.
- Apache Airflow YouTube 튜토리얼 - Marc Lamberti는 Airflow 개념, 구성 및 배포의 다양한 측면을 다루는 YouTube 튜토리얼 시리즈를 만들었습니다.
- Apache Airflow를 사용한 고급 데이터 엔지니어링 패턴 - Airflow를 간략하게 소개한 후 셀프 서비스 SQL 쿼리, A/B 테스트 측정항목 프레임워크 구축, Airflow를 통한 기계 학습 기능 추출 등 고급 사용 사례에 대해 설명하는 Maxime Beauchemin의 강연 동영상입니다. 슬라이드는 여기에서 별도로 사용할 수 있습니다.
- Apache Airflow를 사용한 최신 데이터 파이프라인 - Momentum Dev Con 2018에서 Astronomer.io의 Taylor Edmiston과 Andy Cooper가 Airflow, 사용자 정의 구성 요소, DAG 예시 및 Astronomer Airflow CLI 시작에 관해 강연한 내용입니다.
- Apache Airflow를 사용하여 더 나은 데이터 파이프라인 구축 - Airflow 및 해당 아키텍처에 대한 철저한 개요가 포함된 QCon 18에서 Sid Anand의 강연 슬라이드입니다.
- Astronomer의 Airflow 및 Spark Streaming - Astronomer가 동적 DAG를 사용하여 Airflow로 Spark Streaming 작업을 실행하는 방법입니다.
- 클라우드의 Apache Airflow: Python을 사용하여 프로그래밍 방식으로 워크로드 조정 - Airflow의 기본 사항과 Google Cloud Platform(GCP)에서 워크로드를 조정하는 방법을 소개하는 PyData London 18에서 Kaxil Naik과 Satyasheel의 강연 슬라이드입니다.
- Apache Airflow를 사용하여 Python 코드로 우아한 워크플로 개발 - Europython의 Michał Karzyński는 워크플로 관리자, DAG 및 운영자의 역할을 포함한 Airflow 개념을 간략하게 소개합니다. 링크에는 비디오와 슬라이드가 모두 포함되어 있습니다.
- 데이터 파이프라인 관리 - Ben Goldberg가 Chicago Kubernetes Meetup에서 SpotHero가 Airflow를 사용하는 방법을 안내합니다. 또한 Ben은 Kubernetes 내에서 Airflow가 어떻게 작동하는지에 대한 매우 완전한 슬라이드덱을 보유하고 있습니다.
- 시간 여행을 배운 방법 또는 Airflow를 사용한 데이터 파이프라인 및 스케줄링 - Airflow가 필요한 이유와 Industry Dive가 이를 사용하는 방법에 대한 Laura Lorenz의 종합 자료입니다.
- Apache Airflow 소개 - 2016년 시애틀 데이터 데이 - Sid Anand가 Airflow와 Agari에서 Airflow가 어떻게 사용되었는지 자세히 소개합니다.
- Airflow를 사용한 데이터 파이프라인 운영 - Airflow Meetup 2018년 4월 - Ananth Packkildurai가 Airflow Local Executor 확장 및 Slack에서 데이터 파이프라인을 운영하기 위한 모범 사례에 대해 이야기합니다.
- WePay의 Apache Airflow - Chris Riccomini가 WePay가 Airflow를 선택한 이유를 설명하고 배포 및 그 기반 인프라에 대한 자세한 분석을 제공합니다.
- Apache Airflow를 사용한 우아한 데이터 파이프라인 - Airflow를 사용하여 ETL에서 명확성을 제공하는 방법론에 대해 PyData Amsterdam 2018에서 Bolke de Bruin과 Fokko Driesprong이 이야기합니다.
- Airflow @ Lyft - SF 빅 데이터 분석 모임에서 Tao Feng이 Lyft가 프로덕션에서 Airflow 실행을 모니터링하는 방법에 대해 이야기합니다.
- Airflow 및 Kubernetes를 사용하여 관리 가능한 데이터 파이프라인 - Jarek Potiuk 및 Szymon Przedwojski의 강연. GDG 바르샤바 DevFest 2018에서 Airflow에 대한 소개 강연입니다.
- Apache Oozie 워크플로를 Apache Airflow로 마이그레이션 - 2018년 6월 Airflow Bay Area Meetup에서 Szymon Przedwojski가 Oozie-to-Airflow 마이그레이션 도구에 대해 이야기합니다.
- Apache Airflow를 사용하여 데이터 레이크 구축 - 2018년 9월 암스테르담 Apache Airflow 모임에서 Bas Harenslak과 Julian de Ruiter가 모든 데이터 흐름을 관리하는 웹의 거미 역할을 하는 Apache Airflow를 사용하여 데이터 레이크를 구축하는 방법에 대해 이야기합니다.
- 첫 번째 바르샤바 Apache Airflow 모임 - 2019년 10월 바르샤바에서 열린 첫 번째 Apache Airflow 모임의 실시간 스트리밍 녹화입니다.
- Apache Airflow 2.0의 새로운 소식 - 2020년 5월 13일 온라인 NYC Meetup에서 Ash Berlin-Taylor, Kaxil Naik, Jarek Potiuk, Kamil Breguła, Daniel Imbermann 및 Tomek Urbaszek의 공동 강연
- Airflow Breeze - Apache Airflow용 개발 및 테스트 환경 - Jarek Potiuk가 작성한 Breeze 환경 사용 방법을 보여주는 스크린캐스트입니다.
라이브러리, 후크, 유틸리티
- Domino - Domino는 코드가 없고 시각적으로 직관적인 드래그 앤 드롭 작업을 통해 데이터 및 머신러닝 워크플로(DAG)를 생성하기 위한 오픈 소스 그래픽 사용자 인터페이스 플랫폼입니다. 또한 Python 코드를 게시하고 공유하기 위한 표준이므로 누구든지 GUI에서 직접 자동으로 사용할 수 있습니다.
- Airflow-Helper - YAML 구성 파일에서 Airflow 변수, 연결 및 풀을 설정합니다.
- AirFly - Airflow의 dag.py를 즉시 자동 생성합니다.
- DEAfrica Airflow - 아프리카의 위성 이미지를 활용하려는 인도주의적 노력인 Digital Earth Africa에서 사용하는 Airflow 라이브러리입니다.
- Airflow 플러그인 - mailchimp, trello, sftp, GitHub 등을 포함한 다양한 Airflow 플러그인 저장소의 중앙 컬렉션입니다.
- fileflow - 로컬 파일 시스템 또는 S3를 통해 Airflow 운영자 간의 대규모 데이터 전송을 지원하는 모듈 모음입니다. 이는 데이터가 XCOM에 비해 너무 크지만 운영자에게 직접 로드하기에는 너무 작거나 불편한 문제를 해결합니다. Industry Dive에서 제작했습니다.
- fairflow - 데이터를 한 연산자에서 다른 연산자로 변환하는 기능적 부분을 사용하여 Airflow의 연산자를 추상화하는 라이브러리입니다.
- airflow-maintenance-dags - Clairvoyant에는 Airflow 자체에서 작동하는 Airflow DAG 저장소가 있어 지원 메타데이터 저장소의 다양한 비트를 지웁니다.
- test_dags - DAG 무결성 테스트를 위한 보다 완벽한 솔루션(첫 번째 Circle of Data의 Inferno가 첫 번째입니다.
- dag-factory - YAML 구성 파일에서 Apache Airflow DAG를 동적으로 생성하기 위한 라이브러리입니다.
- whirl - Apache Airflow 워크플로의 빠른 반복 로컬 개발 및 테스트입니다.
- airflow-code-editor - 브라우저에서 DAG를 편집할 수 있는 Apache Airflow용 플러그인입니다.
- Pylint-Airflow - Airflow 코드에 대한 정적 코드 분석을 위한 Pylint 플러그인입니다.
- afctl - 공기 흐름 프로젝트를 더 빠르고 원활하게 생성, 관리 및 배포하는 데 필요한 모든 것이 포함된 CLI 도구입니다.
- Dag 종속성 뷰어 - Airflow DAG 간의 종속성을 시각화하기 위한 뷰를 생성하는 플러그인
- Airflow ECR 플러그인 - 정기적으로 AWS ECR 로그인 토큰을 새로 고치는 플러그인입니다. 이는 DockerOperator가 ECR에서 호스팅되는 이미지를 가져와야 하는 경우에 유용합니다.
- AirflowK8sDebugger - KubernetesPodOperator를 사용하여 Airflow dag에서 k8s Pod yaml 템플릿을 생성하기 위한 라이브러리입니다.
- Oozie to Airflow - Apache Oozie 워크플로와 Apache Airflow 워크플로 간을 쉽게 변환하는 도구입니다.
- Airflow Ditto - Airflow DAG로 변환을 수행하고 이를 원래 DAG와 흐름 동형인 다른 DAG로 변환하여 다양한 환경(예: 다른 클라우드 또는 다른 컨테이너 프레임워크)에서 실행할 수 있는 확장 가능한 프레임워크입니다. YARN의 Apache Spark와 Kubernetes). EMR에서 HDInsight-DAG로의 변환에 대한 기본 지원이 함께 제공됩니다.
- gusty - DAG의 개별 작업을 나타내는 YAML, Python, Jupyter Notebook 또는 R Markdown 파일을 원하는 만큼 사용하여 DAG를 만듭니다. gusty는 또한 종속성, DAG 및 TaskGroup을 구성하고 로컬 운영자를 위한 기능 지원 등을 제공합니다. 완전히 컨테이너화된 데모는 여기에서 볼 수 있습니다.
- Meltano - 추출 및 로딩을 위해 Singer를 수용하고, 변환을 위해 dbt를 활용하고, 오케스트레이션을 위해 Airflow와 통합하는 오픈 소스, 자체 호스팅, CLI 우선, 디버깅 및 확장 가능한 ELT 도구입니다.
- DAG 검사 - dag-check는 Apache Airflow 인스턴스를 유지 관리하는 데 도움이 되는 검사로 구성됩니다.
- Airflow DVC 플러그인 - 데이터 과학 및 머신러닝 파이프라인을 위한 오픈 소스 버전 제어 시스템용 플러그인 - DVC.
- Airflow Vars - 강력하고 안전한 변수 관리를 위해 CD 파이프라인용으로 생성된 변수 관리용 CLI입니다.
- airflow-priority - Datadog, New Relic, Slack, Discord 등에 대한 자동 경고 기능을 갖춘 Airflow DAG용 우선순위 태그(P1, P2 등)
- airflow-config - DAG 및 작업 인수에 대한 Pydantic/Hydra 기반 구성 시스템
- airflow-supervisor - 장기간 실행되거나 "항상 켜져 있는" DAG를 위한 사용하기 쉬운 감독자 통합
모임
- 암스테르담 Apache Airflow Meetup
- 방갈로르 Apache Airflow Meetup
- 베이 지역 Apache Airflow 모임
- 런던 Apache Airflow 모임
- 멜버른 Apache Airflow Meetup
- 뉴욕시 Apache Airflow Meetup
- 파리 Apache Airflow 모임
- 포틀랜드 Apache Airflow Meetup
- 도쿄 Apache Airflow Meetup
- 바르샤바 Apache Airflow Meetup
상업용 Airflow-as-a-service 제공업체
- Google Cloud Composer - Google Cloud Composer는 Google Cloud 및 Airflow를 기반으로 구축된 관리형 서비스입니다.
- Qubole - Qubole은 주로 Apache Hive의 서비스 및 지원 회사로 알려져 있지만 플랫폼의 구성 요소로 Airflow도 제공합니다.
- Astronomer.io - Astronomer는 완전한 ETL 라이프사이클 솔루션을 제공하며 Airflow 기반 제품 제공에 전적으로 초점을 맞춘 것으로 보입니다.
- AWS MWAA - Amazon Managed Workflows for Apache Airflow(MWAA)는 Apache Airflow용 관리형 오케스트레이션 서비스로, 클라우드에서 대규모 데이터 파이프라인을 더 쉽게 설정하고 운영할 수 있게 해줍니다.
Cloud Composer 리소스
이 섹션에는 Apache Airflow를 기반으로 Google Cloud에서 구축한 서비스인 Cloud Composer에 적용되는 문서가 포함되어 있습니다. Cloud Composer용이지만 바닐라 Airflow에도 적용될 수 있는 트릭과 솔루션이 여기에 설명되어 있습니다.
- Google Cloud Composer에서 자동 확장 활성화 - 유휴 기간 동안 비용을 절약하면서 Cloud Composer 배포를 강화하세요.
- 귀하의 비즈니스와 함께 Composer 환경을 확장하십시오 - Celery Executor 아키텍처 및 높은 스케줄러 성능을 보장하는 방법.
- pianka.sh - gcloud 도구에 명령어가 없습니다. 이 도구는 일부 관리 작업을 용이하게 합니다.
- GKE에서 Composer의 Airflow Scheduler를 사용한 더 스마트한 확장 방법 - Roy Berkowitz가 Cloud Composer 서비스에서 노드를 더 효과적으로 사용하는 방법에 대해 설명합니다.
- 함께하면 더 좋습니다: Cloud Composer로 Data Fusion 파이프라인 조정 - Rachael Deacon-Smith는 Cloud Composer의 Datafusion 사용 사례에 대한 연산자 개요를 제공합니다.
영어 이외의 리소스
- Airflow 문서-중국어 - (??중국어) Apachecn은 Airflow 공식 문서를 번역했습니다.
- Gestion de Tâches avec Apache Airflow - (??프랑스어) Nicolas Crocfer - Airflow 개요, 기본 개념 및 DAG 작성 및 트리거 방법.
- Airflow는 100行未満데본格의데이타파이프라인 - (??일본어) Hank Ehly는 Airflow의 주요 개념을 포괄적으로 소개하고 100줄 미만의 코드로 데이터 파이프라인을 생성하는 방법을 보여줍니다.
- apache airflow 複数worker構成のalpine版docker 이미지を작품타 - (??일본어) Akio Ohta가 Alpine 기반 Airflow 시스템 배포를 위한 Docker 이미지를 살펴봅니다.
- Airflow의 태스크 로그를 S3에 적용하는 방법 - (??일본어) Hank Ehly가 AWS S3에 작업 로그 전송을 구성하는 방법을 단계별로 보여줍니다.
- 【徹底解説】Airflow Fluentd Elasticsearch Docker の連携방법 - (??일본어) Hank Ehly가 Fluentd, Elasticsearch 및 Docker를 사용하여 작업자 작업 로그를 처리하는 방법을 설명합니다.
- Apache Airflow – Kaikki Mitä Meillä On, Lähtee Dageista - (??핀란드어) Olli Iivonen의 Solita에서의 Airflow, 개념 및 Airflow 사용법에 대한 개요입니다.
- Airflow - Automatizando seu fluxo de trabalho - (??포르투갈어) Gilson Filho의 Airflow 개요, 개념 및 기본 사용입니다.
- Panduan Dasar Apache Airflow - (??인도네시아어) Imam Digmi - Airflow 개요, 개념, 사용 사례와 기본 사용.
- Airflow - (??베트남어) Duyet Le - Airflow 개요, 개념, 사용 사례와 기본 사용.
- Michael Yang의 Airflow 중국어 블로그 게시물 - Apache Airflow를 사용한 데이터 엔지니어링에 대한 Michael Yang의 중국어 블로그 게시물은 기본 튜토리얼과 DevOps 기술을 마무리합니다.
샘플 프로젝트
- Google Cloud Platform 공개 데이터세트 파이프라인 - Google Cloud 공개 데이터세트 프로그램에 데이터세트를 온보딩하기 위한 클라우드 기반 데이터 파이프라인 아키텍처입니다.
- GitLab 데이터 팀 DAG - GitLab 플랫폼에 대한 분석을 구축하는 데 사용되는 여러 DAG입니다.
- 배포-airflow-on-ecs-fargate - Amazon ECS Fargate에 배포합니다. 작업자를 0으로 자동 크기 조정, S3 원격 로깅 및 비밀 관리와 같은 다양한 기능과 구성을 보여줍니다.
특허
법률에 따라 가능한 한도 내에서 Jakob Homan은 이 저작물에 대한 모든 저작권 및 관련 권리나 저작인접권을 포기했습니다.