Fantastischer Apache Airflow
Dies ist eine kuratierte Liste von Ressourcen zu Apache Airflow. Bitte zögern Sie nicht, alle Artikel beizusteuern, die enthalten sein sollen. Artikel werden im Allgemeinen oben in jedem Abschnitt hinzugefügt, damit mehr frische Artikel hervorgehoben werden.
Inhalt
- Wichtige Links
- Airflow-Bereitstellungslösungen
- Einführungen und Tutorials
- Videos zum Airflow Summit 2020
- Best Practices, gewonnene Erkenntnisse und coole Anwendungsfälle
- Bücher, Blogs, Podcasts und dergleichen
- Slide-Deck-Präsentationen und Online-Videos
- Bibliotheken, Hooks, Dienstprogramme
- Treffen
- Kommerzielle Airflow-as-a-Service-Anbieter
- Cloud Composer-Ressourcen
- Nicht-englischsprachige Ressourcen
Wichtige Links
- Quellcode (neueste stabile Version 1.10.12)
- Dokumentation (auch die offizielle Website)
- Confluence-Seite
- Slack-Arbeitsbereich
Airflow-Bereitstellungslösungen
- Airflow in der IBM Cloud installieren – Schnelle und einfache Bereitstellung in der IBM Cloud mit IBM Bitnami Charts
- Drei Möglichkeiten, Airflow auf Kubernetes auszuführen – Tim van de Keer geht durch verschiedene Methoden zur Bereitstellung von Airflow auf Kubernetes.
- Kostenlose mehrstufige Apache Airflow-Bereitstellung auf Azure – Eine kostenlose Azure Resource Manager (ARM)-Vorlage von Bitnami, die eine Ein-Klick-Lösung für die Airflow-Bereitstellung auf Azure für Produktionsanwendungsfälle bietet.
- KubernetesExecutor-Helm-Diagramm – Ein schlankes Helm-Diagramm, das den KubernetesExecutor für ein nativeres k8s-Erlebnis und ein ergänzendes KubernetesExecutor-Docker-Image verwendet.
- Stable Celery Helm Chart – Kuratiertes Helm Chart im offiziellen Stable Chart Repository.
- Puckels Docker-Image – Das gut gestaltete Docker-Image von @Puckel_ ist zur Basis für viele Airflow-Installationen geworden. Es wird regelmäßig aktualisiert und verfolgt die offiziellen Apache-Versionen genau.
- Benutzerdefinierter Kubernetes-Operator für die Bereitstellung von Airflow – Benutzerdefinierter Kubernetes-Controller (auch Operatormuster genannt) für die Bereitstellung von Airflow auf Kubernetes.
- airflow-pipeline – Airflow Docker-Container, der für Spark und Hadoop vorkonfiguriert ist. Es kann per Docker unter
datagovsg/airflow-pipeline
abgerufen werden. - aws-airflow-stack – Eine AWS-basierte Airflow-Cluster-Bereitstellung mit CeleryExecutor. Bereitstellung nach wenigen Klicks mit CloudFormation.
- kube-airflow – Dieses Repository enthält sowohl ein Airflow-Docker-Image (das offenbar auf Puckels Arbeit basiert) als auch eine Kubernetes-Dienstdefinition. Das Repository von mumoshu wurde in letzter Zeit nicht aktualisiert, es gibt jedoch zahlreiche Forks, die möglicherweise auf neueren Versionen basieren.
- airflow-on-kubernetes – Ein Leitfaden zu allen relevanten Ressourcen, Skripten und Projekten, die sich auf die Ausführung von Airflow auf Kubernetes beziehen.
- airflow-k8s-executor-on-GKE – Ein detailliertes Tutorial, um eine skalierbare, wartungsarme Airflow-Kubernetes-Executor-Umgebung zu erhalten, die auf Google Kubernetes Engine mit Helm bereitgestellt wird.
- airflow-cookbook – Kochbuch für den Einsatz von Airflow.
- Ausführen von Airflow auf Apache Mesos – Blog, der beschreibt, wie man Mesos für die Ausführung aller Airflow-Komponenten konfiguriert.
- Integration von Apache Airflow mit Apache Ambari – Mykola Mykhalov führt Sie durch die Verwendung von Apache Ambari zum Konfigurieren und Bereitstellen einer Airflow-Instanz.
- Astronomer-Plattform – Apache Airflow as a Service auf Kubernetes. Weitere Informationen finden Sie unter https://www.astronomer.io.
- Bitnami Airflow Docker-Image – Ein sicheres und aktuelles Docker-Image für Airflow, das von Bitnami verwaltet wird.
- Bitnami Airflow Scheduler Docker-Image – Ein sicheres und aktuelles Docker-Image für Airflow Scheduler, verwaltet von Bitnami.
- Bitnami Airflow Worker Docker-Image – Ein sicheres und aktuelles Docker-Image für Airflow Worker, verwaltet von Bitnami. Eine CeleryExecutor Docker-Compose-Bereitstellung ist hier verfügbar.
- Verteilen und Bereitstellen von Apache Airflow über Python-PEX-Dateien – Beispiel-Repo mit Schritten zum Bündeln, Verteilen und Bereitstellen von Apache Airflow als PEX-Dateien.
- Einführung von KEDA für Airflow – So verwenden Sie das KEDA-Skalierungssystem, um die automatische Skalierung von Selleriearbeitern basierend auf den in der Airflow-Metadatendatenbank gespeicherten Daten zu ermöglichen.
- Airflow-Component – Leichter Installer der föderierten Airflow-Airflow (RabbitMQ)-Referenzarchitektur auf Rechenknoten.
Einführungen und Tutorials
- Apache Airflow Monitoring Metrics – Eine zweiteilige Serie von maxcotec darüber, wie Sie vorhandene Airflow-Statistikmetriken nutzen können, um Ihre Luftstrombereitstellung auf dem Grafana-Dashboard über Prometheus zu überwachen. Erfahren Sie außerdem, wie Sie benutzerdefinierte Metriken erstellen.
- Einführung in Airflow – Eine Web-Tutorial-Reihe von maxcotec für Anfänger und fortgeschrittene Benutzer von Apache Airflow.
- ETL mit Apache Airflow zur Datenanalyse von Transaktionsdaten. Kimaru Thagana behandelt einen praktischen Fall der Durchführung eines ETL-Prozesses mit Apache Airflow unter Verwendung der Transaktions-, Benutzer- und Produktdaten eines Dummy-E-Commerce-Shops. Die Daten werden über eine Flask-API bereitgestellt.
- Beginnen Sie mit dem Aufbau besserer Datenpipelines mit Apache Airflow 2020-Okt – Naman Gupta behandelt die Grundlagen von Airflow und seinen Konzepten.
- Airflow-Repository-Vorlage – Ein Standard-Repository für die lokale Entwicklung mit Airflow, mit Linting und Tests für gültige DAGs und Plugins. Einfach klonen und
make start-airflow
ausführen, um loszulegen! Fügen Sie einige CI-Jobs hinzu, um Ihren Code bereitzustellen, und schon sind Sie fertig. - Wie Apache Airflow Jobs auf Celery-Workern verteilt – Eine kurze Beschreibung der Schritte, die eine Aufgabeninstanz in einer verteilten Architektur von der Planung bis zum Erfolg durchführt.
- Remote-Spark-Übermittlung an YARN, ausgeführt auf EMR – Azhaguselvan führt Sie Schritt für Schritt durch die Übermittlung von Spark-Jobs an bestehende EMR-Cluster mit Airflow.
- Das Ausführen von Airflow auf Apache Mesos und sein Nachfolger Mesos, Airflow & Docker von Agraj Mangal ist ein kurzer Überblick über die Ausführung von Airflow auf Apache Mesos.
- Dustin Stansbury von Quizlet hat eine vierteilige Serie geschrieben, die behandelt, was Workflow-Manager im Allgemeinen tun, wie Quizlet Airflow ausgewählt hat, einen Rundgang durch die Schlüsselkonzepte von Airflow und wie Quizlet Airflow jetzt in der Praxis einsetzt:
- Jenseits von CRON: eine Einführung in Workflow-Management-Systeme
- Warum Quizlet Apache Airflow für die Ausführung von Datenworkflows gewählt hat
- Die Schlüsselkonzepte von Apache Airflow verstehen
- Wie Quizlet Apache Airflow in der Praxis nutzt
- Integration von Apache Airflow mit Databricks – Dieses Tutorial konzentriert sich zwar speziell auf die Spark-Lösungen von Databricks, bietet jedoch einen angemessenen Überblick über die Airflow-Grundlagen und zeigt, wie eine Drittanbieterlösung schnell in Airflow integriert werden kann.
- Apache Airflow 2.0-Tutorial – In diesem Artikel werden die grundlegenden Konzepte erläutert, die hinter Airflow stehen, und die Probleme, die es löst.
- Testen und Debuggen von Apache Airflow – Artikel, der erklärt, wie man Unit-Tests, Mocking und Debugging auf Airflow-Code anwendet.
- Beginnen Sie mit der Entwicklung von Workflows mit Apache Airflow – In diesem kurzen Einführungs-Tutorial erfahren Sie, wie Sie Datenpipelines und Verarbeitungsworkflows mithilfe von DAG, Operatoren und Sensoren erstellen und Xcoms für die Kommunikation zwischen Operatoren verwenden.
- Beginnen Sie mit Airflow + Google Cloud Platform + Docker – Schritt-für-Schritt-Einführung von Jayce Jiang.
- So entwickeln Sie eine Datenpipeline in Airflow über TDD (testgetriebene Entwicklung) – Erfahren Sie Schritt für Schritt, wie Sie mit TDD eine Vertriebsdatenpipeline aufbauen und am Ende mit Github Actions einen einfachen CI-Workflow konfigurieren.
Videos zum Airflow Summit 2020
Der erste Airflow Summit 2020 fand im Juli 2020 statt. Es war eine wirklich globale, vollständig online stattfindende Veranstaltung, die von 9 Airflow Meetups aus der ganzen Welt (Melbourne, Tokio, Bangalore, Warschau, Amsterdam, London, NYC, BayArea) gemeinsam ausgerichtet wurde ).
Es umfasste mehr als 40 Vorträge und drei Workshops. Sie können sich die Vortragsaufzeichnungen als YouTube Airflow Summit 2020 Playlist ansehen oder die einzelnen Vorträge hier ansehen:
- Keynote: Luftstrom damals und heute
- Scheduler as a Service – Apache Airflow auf der EA Digital Platform
- Keynote: Wie große Unternehmen Airflow für ML- und ETL-Pipelines nutzen
- Daten-DAGs mit Abstammung zum Spaß und zum Gewinn
- Airflow auf Kubernetes: Containerisierung Ihrer Arbeitsabläufe
- Datenfluss mit Airflow @ PayPal
- Demokratisierte Daten-Workflows im großen Maßstab
- Airflow-basierte Spark-Jobs auf Kubernetes migrieren – auf native Weise
- Keynote: Zukunft des Luftstroms
- Führen Sie Airflow-DAGs auf sichere Weise aus
- Keynote: Airflow durch D&I zu einem nachhaltigen Projekt machen
- Airflow CI/CD: Github zu Cloud Composer (sicher)
- Erweitertes Apache-Superset für Dateningenieure
- Demo: Reduzierung der Zeilen, ein visueller DAG-Editor
- AIP-31: Funktionale DAG-Definition für den Luftstrom
- Autonomes Fahren mit Airflow
- Von Cron zu Airflow auf Kubernetes: Eine Startup-Geschichte
- Erzielung der Beobachtbarkeit des Luftstroms
- Maschinelles Lernen mit Apache Airflow
- Airflow: Ein Biestcharakter in der Gaming-Welt
- Effektive Cross-DAG-Abhängigkeit
- Was uns Open Source über das Geschäft beigebracht hat
- Bedarfshierarchie im Data Engineering
- Aufbau wiederverwendbarer und vertrauenswürdiger ELT-Pipelines (ein Ansatz mit Vorlagen)
- Testen Sie Airflow-Workflows – stellen Sie sicher, dass Ihre DAGs funktionieren, bevor Sie in die Produktion gehen
- Hinzufügen eines Executors zu Airflow: Eine Contributor-Overflow-Ausnahme
- Migration zu Airflow-Backport-Anbietern
- Von Zero zu Airflow: Bootstrapping einer ML-Plattform
- Airflow passt perfekt in unsere Analysepipeline
- Airflow bei Société Générale: Eine Open-Source-Orchestrierungslösung in einer Bankenumgebung
- Airflow als Workflow-System der nächsten Generation bei Pinterest
- Verbesserung der Benutzererfahrung von Airflow
- Einer alten DAG neue Tricks beibringen
- Fragen Sie mich alles, was Airflow-Mitglieder betrifft
- Verwendung von Airflow zur Beschleunigung der Entwicklung datenintensiver Tools
- Pipelines über Pipelines: Agile CI/CD-Workflows für Airflow DAGs
- Produktions-Docker-Image für Apache Airflow
- Luftstrom als elastisches ETL-Werkzeug
- Wie beurteilen wir die Zuverlässigkeit unserer Datenpipeline in Wrike?
- Erzielung der Beobachtbarkeit des Luftstroms mit Databand
- Von S3 zu BigQuery – Wie ein Airflow-Erstbenutzer erfolgreich eine Datenpipeline implementierte
Best Practices, gewonnene Erkenntnisse und coole Anwendungsfälle
- So nutzen Sie DuckDB am besten mit Apache Airflow – Tipps zur Integration von DuckDB in Airflow-Jobs.
- Airflow Dag Python-Paketverwaltung – Die Verwaltung von Python-Paketabhängigkeiten über 100 Tage hinweg kann mühsam sein. Es ist schwierig, den Überblick darüber zu behalten, welche Pakete von welchem DAG verwendet werden, und es ist schwierig, beim Entfernen/Aktualisieren des DAG zu bereinigen. Erfahren Sie, wie KubernetesPodOperator und DockerOperator dieses Problem beheben können.
- Airflow-DAG-Verwaltung und -Versionierung – Verwalten Sie den DAG-Veröffentlichungsprozess mithilfe von Git-Submodulen effizient
- Testen im Luftstrom Teil 2 – Chandu Kavar und Sarang Shinde haben Integrationstests und End-to-End-Pipeline-Tests erklärt.
- Modernisierung und Skalierung des Luftstroms bei Robinhood – Abishek Ray beschreibt, wie Robinhood die Modernisierung seines Produktionsluftstroms bei gleichzeitiger Minimierung der Ausfallzeiten in Angriff genommen hat.
- Wir alle verwenden Airflow falsch und wie man es behebt – Jessica Laughlin von Bluecore teilt drei technische Probleme im Zusammenhang mit dem Airflow-Design und wie man sie durch die Verwendung des KubernetesPodOperator in zwei Designmustern löst.
- Erste Schritte mit Data Lineage – Germain Tanguy von Dailymotion stellt einen in Apache Airflow integrierten Data Lineage-Prototyp vor.
- Zusammenarbeit zwischen Dateningenieuren, Datenanalysten und Datenwissenschaftlern – Germain Tanguy von Dailymotion erklärt, wie durch die Zusammenarbeit mit Apache Airflow eine effiziente Freigabe in der Produktion möglich ist.
- Verwendung des Docker-Operators von Apache Airflow mit dem Container-Repository von Amazon – Brian Campbell von Lucid hat Tipps für die Integration des ECR-Dienstes von AWS mit dem DockerOperator von Airflow.
- Airflow: Weniger bekannte Tipps, Tricks und Best Practices – Kaxil Naik hat die weniger bekannten, aber sehr nützlichen Tipps und Best Practices zur Verwendung von Airflow erklärt.
- Boundary-Layer:Deklarative Airflow-Workflows – Kevin McHale hat das Open-Source-Projekt „Boundary-Layer“ erklärt, das Airflow-Daten mit deklarativen Workflows generiert.
- Testen im Luftstrom Teil 1 – Chandu Kavar hat verschiedene Kategorien von Tests im Luftstrom erklärt. Es umfasst DAG-Validierungstests, DAG-Definitionstests und Komponententests.
- Verbesserung der Sicherheit der Airflow-Benutzeroberfläche – Joy Gao von WePay erläutert den Bedarf an rollenbasierten Zugriffskontrollen (Role Based Access Controls, RBAC) und wie sie diese bei Airflow eingeführt hat.
- So erstellen Sie einen Workflow in Apache Airflow, um Krankheitsausbrüche in Indien zu verfolgen – Vinayak Mehta beschreibt, wie SocialCops Airflow nutzt, um das indische Ministerium für Gesundheit und Familienangelegenheiten zu durchsuchen, um daraus abgeleitete Daten zu möglichen Krankheitsausbrüchen zu generieren.
- Airflow, Meta Data Engineering und eine Datenplattform für die größte Demokratie der Welt – Vinayak Mehta spricht über die Identifizierung von Data-Engineering-Mustern (Meta-Data-Engineering) zur Automatisierung der DAG-Generierung und wie dies SocialCops dabei half, DISHA zu betreiben, eine nationale Datenplattform, auf der indische Abgeordnete und MLAs überwachen den Fortschritt von 42 Programmen auf nationaler Ebene.
- Lehren aus dem Airflow-ing und Airflow Teil 2: Lehren aus den Lehren – Nehil Jain hat eine zweiteilige Serie geschrieben, die den Wert von Workflow-Planern, einige Best Practices und Fallstricke behandelt, die er bei der Arbeit mit Airflow entdeckt hat. Insbesondere der zweite Artikel enthält viele Produktionstipps.
- Warum Robinhood Airflow nutzt – Vineet Goel erklärt, warum die Finanzhandelsplattform Robinhood Airflow gegenüber alternativen Arbeitsplanern ausgewählt hat.
- Was wir bei der Migration von Cron zu Airflow gelernt haben – Katie Macias beschreibt den Weg von VideoAmp Data Engineering von Cron zu Airflow.
- Unter der Haube: Aufbau von AIR bei Qubole – Sreenath Kamath und Rajat Venkatesh schreiben über den Aufbau der Datenerkennungs-, Erkenntnisse- und Empfehlungsplattform von Qubole auf Airflow.
- Airflow: Warum funktioniert nichts? - Der SubDagOperator von TL;DR Airflow verursacht Deadlocks von Jessica Laughlin - Tiefer Einblick in die Fehlerbehebung bei einem problematischen Airflow DAG mit guten Tipps zur Diagnose von Problemen.
- Apache Airflow als externer Scheduler für verteilte Systeme – Arunkumar schlägt vor, Airflow als einfachen externen Scheduler für ein verteiltes System zu verwenden.
- Wie Sift Tausende von Modellen mit Apache Airflow trainiert – Zusammenfassung der Bereitstellungsstrategie von Sift Science für seine Modellpipelines für maschinelles Lernen.
- Apache Airflow bei Pandora – Ace Haidrey erläutert, warum Pandora sich für Airflow entschieden hat, und bietet eine detaillierte Aufschlüsselung ihrer Bereitstellung und der dahinter stehenden Infrastruktur.
- Airflow-Lektionen von der Data Engineering Front in Chicago – Alison Stanton bietet eine Liste mit Tipps, um Fallstricke bei Airflow-Jobs zu vermeiden.
- Das Inferno der Daten: 7 Kreise der Datentests mit Airflow – Das Wholesale Banking Advanced Analytics-Team von ING beschreibt im Detail, wie es seine Airflow-DAGs vor der Bereitstellung auf Herz und Nieren testet.
- Datentests mit Airflow-Repository
- Datenqualitätsprüfer – Antoine Augusti beschreibt das Framework, das drivy auf Airflow aufgebaut hat, um seine Datensätze auf Vollständigkeit, Konsistenz, Aktualität, Einzigartigkeit, Gültigkeit und Genauigkeit zu testen.
- Aufbau des Data Warehouse von WePay mit BigQuery und Airflow – Der unschätzbare Chris Riccomini beschreibt, wie WePay, einer der ersten Anwender von Airflow, in seine Google Cloud Compute-Umgebung integriert wurde.
- Verwendung von Apache Airflow zum Erstellen einer Dateninfrastruktur im öffentlichen Sektor – Trotz eines leider sehr heftigen Verkaufsgesprächs beschreibt dieser Blogbeitrag, wie ARGO Labs, eine gemeinnützige Datenorganisation, Airflow für ETLing in Daten des öffentlichen Sektors nutzt.
- ETL mit Airflow – ETL-Kernprinzipien und mehrere End-to-End-Docker-basierte Beispiele, darunter Kimball, Data Vault on Hive und einige einfachere Beispiele.
- So aggregieren Sie Daten für BigQuery mit Apache Airflow – Beispiel für die Verwendung von Airflow mit Google BigQuery zur Unterstützung eines Data Studio-Dashboards.
- Produktion von ML mit Workflows bei Twitter – Ausführlicher Beitrag darüber, warum und wie Twitter Airflow für ML-Workflows verwendet, einschließlich der Einbeziehung benutzerdefinierter Operatoren und einer benutzerdefinierten Benutzeroberfläche, die in die Airflow-Weboberfläche eingebettet ist.
- Ausführen von Apache Airflow bei Lyft – Dies bietet einen Überblick darüber, wie Lyft Apache Airflow in der Produktion betreibt (Überwachung, Anpassung usw.).
- Bereitstellen von Apache Airflow in Azure zum Erstellen und Ausführen von Datenpipelines – Es geht um die Ausführung von Airflow in Azure.
- Der Zen von Python und Apache Airflow – Blogbeitrag darüber, wie der Zen von Python auf Airflow-Code angewendet werden kann.
- Sichern der Apache Airflow-Benutzeroberfläche MIT Zugriff auf DAG-Ebene – Blogbeitrag über den Zugriff auf Airflow-DAG-Ebene und wie Lyft ihn verwendet.
- Upgrade von Airflow ohne Ausfallzeiten – Ein ausführlicher Artikel zur Bereitstellung von Airflow ohne Ausfallzeiten.
- Aufbau einer ETL-Pipeline-Plattform auf Produktionsebene mit Apache Airflow – In diesem Beitrag wird beschrieben, wie das Systemmanagementteam bei Cerner Airflow verwendet.
- Minimaler Airflow auf Kubernetes (lokal, EKS, AKS) – Ein Artikel über die Bereitstellung von Airflow auf lokalem Kubernetes, AWS EKS und Azure AKS mit minimalem Setup.
- Aufteilen des Airflow-DAG-Monorepo – In diesem Beitrag wird beschrieben, wie die Verwaltung von Airflow-DAGs von mehreren Git-Repos über S3 unterstützt wird.
- Verbesserung der Leistung von Apache Airflow Scheduler – Eine Geschichte eines Abenteuers, das es Databand ermöglichte, die DAG-Analysezeit um das Zehnfache zu beschleunigen
- Wie SSENSE Apache Airflow verwendet, um Data Lineage auf AWS durchzuführen – Erkundung der grundlegenden Themen der Architektur und Steuerung eines Data Lakes auf AWS mithilfe von Apache Arflow.
- Überwachen des Luftstroms mit Prometheus, StatsD und Grafana – Eine Anleitung zum Einrichten von Betriebs-Dashboards für Produktionscluster per Databand und zum Erhalten einer umfassenden Sichtbarkeit des Luftstroms.
- Orchestrierung komplexer Aufgaben bei Hurb mit Apache Airflow – Dieser Beitrag zeigt, wie Hurb Apache Airflow zur Orchestrierung komplexer Aufgaben nutzt und wie es die dynamische DAG-Erstellung nutzt, um die Entwicklungsgeschwindigkeit zu verbessern.
- Automatisieren des Datenexports von CrateDB nach S3 mit Apache Airflow Ein Tutorial zum Automatisieren wiederkehrender Abfragen in CrateDB mit Apache Airflow, z. B. periodischer Datenexport nach Amazon S3.
- Implementierung einer Richtlinie zur Datenaufbewahrung mit CrateDB und Apache Airflow Eine Schritt-für-Schritt-Anleitung zur Implementierung einer effektiven Richtlinie zur Datenaufbewahrung mit CrateDB und Apache Airflow.
- NYC-Taxidaten von S3 in CrateDB aufnehmen – Beschreibt, wie eine Datenbankaufnahmepipeline in Airflow erstellt wird, indem CSV-Dateien von S3 in CrateDB geladen werden.
Bücher, Blogs, Podcasts und dergleichen
- Datenpipelines mit Apache Airflow – Ein Manning-Buch (Early Access September 2019) über Airflow.
- Der Airflow-Podcast – Ein halbregelmäßiger Podcast, der alles rund um Airflow bespricht.
- Maxime Beauchemin – Maximes Blog auf Medium, der Einblick in die Philosophie hinter Apache Airflow gibt.
- Robert Chang – Blogbeiträge über Data Engineering mit Apache Airflow, erklärt warum und enthält Beispiele im Code.
- Umgang mit Airflow-Protokollen mit Kubernetes Executor – Ein Blogbeitrag, der beschreibt, wie Sie bei Verwendung von KubernetesExecutor die Remote-S3-Protokollierung einrichten können, ohne eine komplexe Infrastruktur zu erstellen.
- Airflow 2.0: DAG-Erstellung neu gestaltet – Blogbeitrag über neue Möglichkeiten zum Schreiben von DAGs in Airflow 2.0.
- Airflow 2.0-Anbieter – Blogbeitrag über Anbieterpakete in Airflow 2.0.
Slide-Deck-Präsentationen und Online-Videos
- 2020-Feb: Apache Airflow @ Umuzi.org – Sheena O'Connell diskutiert, wie das in Südafrika ansässige Tech-Bootcamp Umuzi Airflow nutzt.
- YouTube-Tutorials zu Apache Airflow – Marc Lamberti hat eine Reihe von YouTube-Tutorials erstellt, die viele Aspekte von Airflow-Konzepten, -Konfiguration und -Bereitstellung abdecken.
- Erweiterte Data Engineering-Muster mit Apache Airflow – Video von Maxime Beauchemins Vortrag, der Airflow kurz vorstellt und dann auf fortgeschrittenere Anwendungsfälle eingeht, darunter Self-Service-SQL-Abfragen, die Erstellung von A/B-Testmetrik-Frameworks und die Extraktion von Funktionen für maschinelles Lernen, alles über Airflow. Die Folien sind hier separat erhältlich.
- Moderne Datenpipelines mit Apache Airflow – Ein Vortrag von Taylor Edmiston und Andy Cooper von Astronomer.io auf der Momentum Dev Con 2018 über den Einstieg in Airflow, benutzerdefinierte Komponenten, Beispiel-DAGs und die Astronomer Airflow CLI.
- Aufbau besserer Datenpipelines mit Apache Airflow – Folien aus Sid Anands Vortrag auf der QCon 18 mit einem umfassenden Überblick über Airflow und seine Architektur.
- Airflow und Spark Streaming bei Astronomer – Wie Astronomer dynamische DAGs verwendet, um Spark Streaming-Jobs mit Airflow auszuführen.
- Apache Airflow in der Cloud: Programmgesteuerte Orchestrierung von Arbeitslasten mit Python – Folien aus dem Vortrag von Kaxil Naik und Satyasheel bei PyData London 18, in dem die Grundlagen von Airflow und die Orchestrierung von Arbeitslasten auf der Google Cloud Platform (GCP) vorgestellt werden.
- Entwickeln eleganter Workflows in Python-Code mit Apache Airflow – Michał Karzyński von Europython gibt eine kurze Einführung in Airflow-Konzepte, einschließlich der Rolle von Workflow-Managern, DAGs und Operatoren. Der Link enthält sowohl Videos als auch Folien.
- Datenpipeline-Management – Ben Goldberg führt beim Chicago Kubernetes Meetup durch die Verwendung von Airflow durch SpotHero. Darüber hinaus verfügt Ben über ein sehr umfassendes Slidedeck darüber, wie Airflow in Kubernetes funktioniert.
- Wie ich mit Airflow Zeitreisen oder Datenpipelining und -planung gelernt habe – Umfassende Präsentation von Laura Lorenz, warum Airflow notwendig ist und wie Industry Dive es nutzt.
- Einführung in Apache Airflow – Data Day Seattle 2016 – Sid Anand gibt eine ausführliche Einführung in Airflow und wie es bei Agari verwendet wurde.
- Betrieb einer Datenpipeline mit Airflow – Airflow Meetup April 2018 – Ananth Packkildurai spricht über die Skalierung von Airflow Local Executor und Best Practices für den Betrieb einer Datenpipeline bei Slack.
- Apache Airflow bei WePay – Chris Riccomini erläutert, warum WePay sich für Airflow entschieden hat, und bietet eine detaillierte Aufschlüsselung der Bereitstellung und der dahinter stehenden Infrastruktur.
- Elegantes Daten-Pipelining mit Apache Airflow – Vorträge von Bolke de Bruin und Fokko Driesprong auf der PyData Amsterdam 2018 über Methoden, die mit Airflow für Klarheit in ETL sorgen.
- Airflow @ Lyft – Vorträge von Tao Feng beim SF Big Data Analytics-Treffen darüber, wie Lyft den laufenden Airflow in der Produktion überwacht.
- Verwaltbare Datenpipelines mit Airflow und Kubernetes – Vortrag von Jarek Potiuk und Szymon Przedwojski. Ein Einführungsvortrag über Airflow vom GDG Warsaw DevFest 2018.
- Migration von Apache Oozie-Workflows zu Apache Airflow – Vortrag von Szymon Przedwojski vom Airflow Bay Area Meetup im Juni 2018 über das Oozie-to-Airflow-Migrationstool.
- Aufbau von Data Lakes mit Apache Airflow – Vortrag von Bas Harenslak und Julian de Ruiter beim Amsterdamer Apache Airflow-Treffen im September 2018 über den Aufbau von Data Lakes mit Apache Airflow als Spinne im Netz, die alle Datenströme verwaltet.
- Erstes Warschauer Apache Airflow Meetup – Live-Streaming-Aufzeichnung vom ersten Apache Airflow Meetup in Warschau im Oktober 2019.
- Was kommt in Apache Airflow 2.0 – gemeinsamer Vortrag von Ash Berlin-Taylor, Kaxil Naik, Jarek Potiuk, Kamil Breguła, Daniel Imbermann und Tomek Urbaszek beim Online NYC Meetup, 13. Mai 2020
- Airflow Breeze – Entwicklungs- und Testumgebung für Apache Airflow – Screencast, der zeigt, wie die Breeze-Umgebung verwendet wird, von Jarek Potiuk.
Bibliotheken, Hooks, Dienstprogramme
- Domino – Domino ist eine Open-Source-Plattform für grafische Benutzeroberflächen zum Erstellen von Daten und Machine-Learning-Workflows (DAGs) mit visuell intuitiven Drag-and-Drop-Aktionen ohne Code. Es ist auch ein Standard zum Veröffentlichen und Teilen Ihres Python-Codes, sodass er automatisch von jedem direkt in der GUI verwendet werden kann.
- Airflow-Helper – Einrichten von Airflow-Variablen, Verbindungen und Pools aus einer YAML-Konfigurationsdatei.
- AirFly – Automatische Generierung von Airflows dag.py im laufenden Betrieb.
- DEAfrica Airflow – Luftstrombibliotheken, die von Digital Earth Africa verwendet werden, einer humanitären Initiative zur Nutzung von Satellitenbildern Afrikas.
- Airflow-Plugins – Zentrale Sammlung von Repositorys verschiedener Plugins für Airflow, einschließlich Mailchimp, Trello, SFTP, GitHub usw.
- fileflow – Sammlung von Modulen zur Unterstützung großer Datenübertragungen zwischen Airflow-Betreibern über das lokale Dateisystem oder S3. Dadurch wird eine Lücke geschlossen, bei der die Daten für XCOMs zu groß, für das direkte Laden in den Operator jedoch zu klein oder unpraktisch sind. Gebaut von Industry Dive.
- fairflow – Bibliothek zum Abstrahieren der Airflow-Operatoren mit funktionalen Teilen, die die Daten von einem Operator in einen anderen umwandeln.
- airflow-maintenance-dags – Clairvoyant verfügt über ein Repo von Airflow-DAGs, die auf Airflow selbst betrieben werden und verschiedene Teile des zugrunde liegenden Metadatenspeichers löschen.
- test_dags – eine umfassendere Lösung für DAG-Integritätstests (erster Circle of Data's Inferno ist der erste).
- dag-factory – Eine Bibliothek zum dynamischen Generieren von Apache Airflow DAGs aus YAML-Konfigurationsdateien.
- Whirl – Schnelle iterative lokale Entwicklung und Tests von Apache Airflow-Workflows.
- airflow-code-editor – Ein Plugin für Apache Airflow, mit dem Sie DAGs im Browser bearbeiten können.
- Pylint-Airflow – Ein Pylint-Plugin für die statische Code-Analyse von Airflow-Code.
- afctl – Ein CLI-Tool, das alles enthält, was zum schnelleren und reibungsloseren Erstellen, Verwalten und Bereitstellen von Airflow-Projekten erforderlich ist.
- Viewer für Dag-Abhängigkeiten – Ein Plugin, das eine Ansicht zur Visualisierung von Abhängigkeiten zwischen den Airflow-DAGs erstellt
- Airflow ECR Plugin – Plugin zum regelmäßigen Aktualisieren des AWS ECR-Anmeldetokens. Dies ist hilfreich, wenn DockerOperator auf ECR gehostete Bilder abrufen muss.
- AirflowK8sDebugger – Eine Bibliothek zum Generieren von k8s-Pod-YAML-Vorlagen aus einem Airflow-DAG mit dem KubernetesPodOperator.
- Oozie to Airflow – Ein Tool zur einfachen Konvertierung zwischen Apache Oozie-Workflows und Apache Airflow-Workflows.
- Airflow Ditto – Ein erweiterbares Framework, um Transformationen an einem Airflow-DAG durchzuführen und ihn in einen anderen DAG umzuwandeln, der flussisomorph zum ursprünglichen DAG ist, um ihn in verschiedenen Umgebungen ausführen zu können (z. B. in verschiedenen Clouds oder sogar verschiedenen Container-Frameworks) Apache Spark auf YARN vs. Kubernetes). Bietet sofort einsatzbereite Unterstützung für EMR-zu-HDInsight-DAG-Transformationen.
- gusty – Erstellen Sie eine DAG mit einer beliebigen Anzahl von YAML-, Python-, Jupyter Notebook- oder R-Markdown-Dateien, die einzelne Aufgaben in der DAG darstellen. gusty konfiguriert außerdem Abhängigkeiten, DAGs und TaskGroups, bietet Unterstützung für Ihre lokalen Operatoren und mehr. Eine vollständig containerisierte Demo ist hier verfügbar.
- Meltano – Open-Source-, selbstgehostetes, CLI-first, debuggbares und erweiterbares ELT-Tool, das Singer zum Extrahieren und Laden nutzt, dbt für die Transformation nutzt und sich für die Orchestrierung in Airflow integrieren lässt.
- DAG-Prüfungen – Die Dag-Prüfungen bestehen aus Prüfungen, die Ihnen bei der Wartung Ihrer Apache Airflow-Instanz helfen können.
- Airflow DVC-Plugin – Plugin für Open-Source-Versionskontrollsystem für Data Science- und Machine Learning-Pipelines – DVC.
- Airflow Vars – Eine CLI für die Variablenverwaltung, die für CD-Pipelines erstellt wurde, um eine robuste und sichere Variablenverwaltung zu ermöglichen.
- airflow-priority – Prioritäts-Tags (P1, P2 usw.) für Airflow-DAGs mit automatischer Benachrichtigung an Datadog, New Relic, Slack, Discord und mehr
- airflow-config – Pydantic/Hydra-basiertes Konfigurationssystem für DAG- und Task-Argumente
- airflow-supervisor – Benutzerfreundliche Supervisor-Integration für lang laufende oder „immer aktive“ DAGs
Treffen
- Amsterdam Apache Airflow Meetup
- Bangalore Apache Airflow Meetup
- Apache Airflow-Treffen in der Bay Area
- Londoner Apache Airflow-Treffen
- Melbourne Apache Airflow Meetup
- New York City Apache Airflow Meetup
- Paris Apache Airflow Meetup
- Portland Apache Airflow Meetup
- Tokyo Apache Airflow Meetup
- Warschauer Apache Airflow Meetup
Kommerzielle Airflow-as-a-Service-Anbieter
- Google Cloud Composer – Google Cloud Composer ist ein verwalteter Dienst, der auf Google Cloud und Airflow basiert.
- Qubole – Qubole ist vor allem als Service- und Supportunternehmen für Apache Hive bekannt, bietet aber auch Airflow als Bestandteil seiner Plattform an.
- Astronomer.io – Astronomer bietet komplette ETL-Lebenszykluslösungen und scheint sich ausschließlich auf die Bereitstellung von Airflow-basierten Produkten zu konzentrieren.
- AWS MWAA – Amazon Managed Workflows for Apache Airflow (MWAA) ist ein verwalteter Orchestrierungsdienst für Apache Airflow, der die Einrichtung und den Betrieb von End-to-End-Datenpipelines in der Cloud in großem Maßstab erleichtert.
Cloud Composer-Ressourcen
Dieser Abschnitt enthält Artikel, die sich auf Cloud Composer beziehen – einen von Google Cloud auf Basis von Apache Airflow erstellten Dienst. Hier werden Tricks und Lösungen beschrieben, die für Cloud Composer gedacht sind, aber möglicherweise auf Vanilla Airflow anwendbar sind.
- Aktivieren der automatischen Skalierung in Google Cloud Composer – Optimieren Sie Ihre Cloud Composer-Bereitstellung und sparen Sie gleichzeitig Kosten in Leerlaufzeiten.
- Skalieren Sie Ihre Composer-Umgebung zusammen mit Ihrem Unternehmen – Die Celery Executor-Architektur und Möglichkeiten zur Gewährleistung einer hohen Scheduler-Leistung.
- pianka.sh – Fehlender Befehl im gcloud-Tool. Dieses Tool erleichtert einige Verwaltungsaufgaben.
- Die intelligentere Art der Skalierung mit dem Airflow Scheduler von Composer auf GKE – Roy Berkowitz diskutiert die effektivere Nutzung von Knoten im Cloud Composer-Dienst.
- Gemeinsam besser: Orchestrieren Sie Ihre Data Fusion-Pipelines mit Cloud Composer – Rachael Deacon-Smith bietet einen Überblick über den Operator für Datafusion-Anwendungsfälle auf Cloud Composer.
Nicht-englischsprachige Ressourcen
- Airflow-Dokumentation – Chinesisch – (??Chinesisch) Apachecn hat die offizielle Airflow-Dokumentation übersetzt.
- Gestion de Tâches avec Apache Airflow – (??Französisch) Nicolas Crocfer – Überblick über Airflow, grundlegende Konzepte und wie man einen DAG schreibt und auslöst.
- Airflow – (??Japanisch) Hank Ehly gibt eine umfassende Einführung in die Hauptkonzepte von Airflow und zeigt, wie man in weniger als 100 Zeilen eine Datenpipeline erstellt Code.
- Apache Airflow 複数Worker構成のAlpine版Docker-Imageを作った – (??Japanisch) Akio Ohta geht durch sein Docker-Image für die Bereitstellung eines Alpine-basierten Airflow-Systems.
- Airflow – (??Japanisch) Hank Ehly zeigt Schritt für Schritt, wie das Senden von Aufgabenprotokollen an AWS S3 konfiguriert wird.
- [徹底解説] Airflow Fluentd Elasticsearch Docker の連携方法 – (??Japanisch) Hank Ehly beschreibt, wie man Worker-Aufgabenprotokolle mit Fluentd, Elasticsearch und Docker verarbeitet.
- Apache Airflow – Kaikki Mitä Meillä On, Lähtee Dageista – (??Finnisch) Olli Iivonens Überblick über Airflow, Konzepte und Airflow-Nutzung bei Solita.
- Airflow – Automatizando seu flowo de trabalho – (??Portugiesisch) Gilson Filhos Überblick über Airflow, Konzept und grundlegende Verwendung.
- Panduan Dasar Apache Airflow – (??Indonesisch) Imam Digmi – Überblick über Airflow, Konzept, grundlegende Verwendung mit Anwendungsfall.
- Airflow – (??Vietnamesisch) Duyet Le – Überblick über Airflow, Konzept, grundlegende Verwendung mit Anwendungsfall.
- Michael Yangs chinesische Blog-Beiträge zu Airflow – Michael Yangs chinesische Blog-Beiträge über Data Engineering mit Apache Airflow schließen grundlegende Tutorials und Entwicklerfähigkeiten ab.
Beispielprojekte
- Öffentliche Datasets-Pipelines der Google Cloud Platform – Cloud-native Datenpipeline-Architektur für die Aufnahme von Datensätzen in das Google Cloud Public Datasets-Programm.
- GitLab Data Team DAGs – Mehrere DAGs, die zum Erstellen von Analysen für die GitLab-Plattform verwendet werden.
- Deploy-Airflow-on-ECS-Fargate – Bereitstellung auf Amazon ECS Fargate. Demonstriert verschiedene Funktionen und Konfigurationen, z. B. automatische Skalierung von Workern auf Null, S3-Remoteprotokollierung und Geheimnisverwaltung.
Lizenz
Soweit gesetzlich möglich, hat Jakob Homan auf alle Urheberrechte und verwandten oder benachbarten Rechte an diesem Werk verzichtet.