Flux d'air Apache génial
Il s'agit d'une liste organisée de ressources sur Apache Airflow. N'hésitez pas à contribuer à tous les éléments qui devraient être inclus. Les éléments sont généralement ajoutés en haut de chaque section afin que les éléments les plus récents soient mis en évidence.
Contenu
- Liens vitaux
- Solutions de déploiement de flux d'air
- Introductions et tutoriels
- Vidéos du Sommet Airflow 2020
- Meilleures pratiques, leçons apprises et cas d'utilisation intéressants
- Livres, blogs, podcasts, etc.
- Présentations de diapositives et vidéos en ligne
- Bibliothèques, crochets, utilitaires
- Rencontres
- Fournisseurs de flux d'air commerciaux en tant que service
- Ressources Cloud Composer
- Ressources non anglaises
Liens vitaux
- Code source (dernière version stable 1.10.12)
- Documentation (également le site officiel)
- Page Confluence
- Espace de travail Slack
Solutions de déploiement de flux d'air
- Installation d'Airflow sur IBM Cloud - Déploiement rapide et facile sur IBM Cloud avec IBM Bitnami Charts
- Trois façons d'exécuter Airflow sur Kubernetes - Tim van de Keer présente plusieurs méthodes de déploiement d'Airflow sur Kubernetes.
- Déploiement gratuit multiniveau Apache Airflow sur Azure - Un modèle Azure Resource Manager (ARM) gratuit de Bitnami fournissant une solution en un clic pour le déploiement d'Airflow sur Azure pour les cas d'utilisation en production.
- KubernetesExecutor Helm Chart - Un graphique Helm allégé utilisant KubernetesExecutor pour une expérience native plus k8s et une image Docker KubernetesExecutor complémentaire.
- Graphique de barre de céleri stable - Graphique de barre organisé dans le référentiel officiel de cartes stables.
- Image Docker de Puckel - L'image Docker bien conçue de @Puckel_ est devenue la base de nombreuses installations Airflow. Il est régulièrement mis à jour et suit de près les versions officielles d'Apache.
- Opérateur personnalisé Kubernetes pour le déploiement d'Airflow - Contrôleur personnalisé Kubernetes (également appelé modèle d'opérateur) pour le déploiement d'Airflow sur Kubernetes.
- airflow-pipeline - Conteneur Airflow Docker préconfiguré pour Spark et Hadoop. Il peut être extrait du docker sur
datagovsg/airflow-pipeline
. - aws-airflow-stack - Un déploiement de cluster Airflow basé sur AWS avec CeleryExecutor. Se déploie après quelques clics avec CloudFormation.
- kube-airflow - Ce référentiel contient à la fois une image Airflow Docker (qui semble avoir été basée sur le travail de Puckel) et une définition de service Kubernetes. Le référentiel de mumoshu n'a pas été récemment mis à jour, mais il existe de nombreux forks qui peuvent être basés sur des versions plus récentes.
- airflow-on-kubernetes - Un guide sur toutes les ressources, scripts et projets pertinents liés à l'exécution d'Airflow sur Kubernetes.
- airflow-k8s-executor-on-GKE - Un didacticiel détaillé pour obtenir un environnement d'exécution kubernetes à flux d'air évolutif et nécessitant peu de maintenance déployé sur Google Kubernetes Engine avec helm.
- airflow-cookbook - Livre de recettes Chef pour le déploiement d'Airflow.
- Exécuter Airflow sur Apache Mesos - Blog décrivant comment configurer Mesos pour exécuter tous les composants Airflow.
- Intégration d'Apache Airflow à Apache Ambari - Mykola Mykhalov explique l'utilisation d'Apache Ambari pour configurer et déployer une instance Airflow.
- Plateforme Astronomer - Apache Airflow en tant que service sur Kubernetes. Pour plus d’informations, visitez https://www.astronome.io.
- Image Docker Bitnami Airflow - Une image Docker sécurisée et à jour pour Airflow maintenue par Bitnami.
- Image Docker de Bitnami Airflow Scheduler - Une image Docker sécurisée et à jour pour Airflow Scheduler maintenue par Bitnami.
- Image Docker Bitnami Airflow Worker - Une image Docker sécurisée et à jour pour Airflow Worker maintenue par Bitnami. Un déploiement docker-compose de CeleryExecutor est disponible ici.
- Distribuez et déployez Apache Airflow via des fichiers Python PEX - Exemple de dépôt avec des étapes pour regrouper, distribuer et déployer Apache Airflow sous forme de fichiers PEX.
- Présentation de KEDA pour Airflow - Comment utiliser le système de mise à l'échelle KEDA pour activer la mise à l'échelle automatique des ouvriers en céleri en fonction des données stockées dans la base de données de métadonnées Airflow.
- Airflow-Component - Installateur léger de l'architecture de référence fédérée Airflow-Airflow (RabbitMQ) sur le(s) nœud(s) de calcul.
Introductions et tutoriels
- Apache Airflow Monitoring Metrics - Une série en deux parties de maxcotec sur la façon dont vous pouvez utiliser les métriques Airflow statsd existantes pour surveiller votre déploiement de flux d'air sur le tableau de bord Grafana via Prometheus. Apprenez également à créer des métriques personnalisées.
- Introduction à Airflow - Une série de didacticiels Web de maxcotec pour les utilisateurs débutants et intermédiaires d'Apache Airflow.
- ETL avec Apache Airflow pour l'analyse des données sur les données de transaction. Kimaru Thagana couvre un cas pratique de réalisation d'un processus ETL à l'aide d'Apache Airflow en utilisant les données transactionnelles, utilisateur et produit d'une boutique de commerce électronique factice. Les données sont servies via une API flask.
- Commencez à créer de meilleurs pipelines de données avec Apache Airflow 2020-Oct - Naman Gupta couvre les bases d'Airflow et ses concepts.
- Modèle de référentiel Airflow - Un référentiel passe-partout pour le développement local avec Airflow, avec du peluchage et des tests pour les DAG et plugins valides. Il suffit de cloner et d'exécuter
make start-airflow
pour commencer ! Ajoutez quelques tâches CI pour déployer votre code et vous avez terminé. - Comment Apache Airflow distribue les tâches sur les travailleurs Celery - Une brève description des étapes suivies par une instance de tâche, de la planification au succès, dans une architecture distribuée.
- Soumission Spark à distance à YARN fonctionnant sur EMR - Azhaguselvan explique la soumission des tâches Spark aux clusters EMR existants avec Airflow.
- Exécuter Airflow sur Apache Mesos et son suivi, Mesos, Airflow & Docker par Agraj Mangal est un aperçu rapide de l'exécution d'Airflow sur Apache Mesos.
- Dustin Stansbury de Quizlet a écrit une série en quatre parties qui couvre ce que font les gestionnaires de flux de travail en général, comment Quizlet a choisi Airflow, une visite guidée des concepts clés d'Airflow et comment Quizlet utilise désormais Airflow dans la pratique :
- Au-delà de CRON : une introduction aux systèmes de gestion de flux de travail
- Pourquoi Quizlet a choisi Apache Airflow pour exécuter des flux de données
- Comprendre les concepts clés d'Apache Airflow
- Comment Quizlet utilise Apache Airflow en pratique
- Intégration d'Apache Airflow avec Databricks - Bien que ce didacticiel se concentre spécifiquement sur les solutions Spark de Databricks, il donne un aperçu raisonnable des bases d'Airflow et montre comment une solution tierce peut s'intégrer rapidement à Airflow.
- Tutoriel Apache Airflow 2.0 - Cet article traite des concepts de base qui sous-tendent Airflow et discute des problèmes qu'il résout.
- Test et débogage d'Apache Airflow - Article expliquant comment appliquer les tests unitaires, la simulation et le débogage au code Airflow.
- Commencez à développer des workflows avec Apache Airflow - Ce bref didacticiel d'introduction explique comment créer un pipeline de données et un workflow de traitement à l'aide de DAG, d'opérateurs, de Sensor, en utilisant Xcoms pour communiquer entre les opérateurs.
- Premiers pas avec Airflow + Google Cloud Platform + Docker – Introduction étape par étape par Jayce Jiang.
- Comment développer un pipeline de données dans Airflow via TDD (développement piloté par les tests) - Apprenez comment créer un pipeline de données de vente à l'aide de TDD étape par étape et, enfin, comment configurer un flux de travail CI simple à l'aide des actions Github.
Vidéos du Sommet Airflow 2020
Le premier Airflow Summit 2020 s'est tenu en juillet 2020. Il s'agissait d'un événement véritablement mondial, entièrement en ligne, co-organisé par 9 Airflow Meetups du monde entier (Melbourne, Tokyo, Bangalore, Varsovie, Amsterdam, Londres, NYC, BayArea). ).
Il comprenait plus de 40 conférences et trois ateliers. Vous pouvez consulter les enregistrements des discussions sous forme de playlist YouTube Airflow Summit 2020 ou voir les conférences individuelles ici :
- Keynote : Le flux d'air d'hier et d'aujourd'hui
- Planificateur en tant que service - Apache Airflow sur EA Digital Platform
- Keynote : Comment les grandes entreprises utilisent Airflow pour les pipelines ML et ETL
- DAG de données avec lignée pour le plaisir et le profit
- Airflow sur Kubernetes : conteneuriser vos workflows
- Flux de données avec Airflow @ PayPal
- Des workflows de données démocratisés à grande échelle
- Migration des tâches Spark basées sur Airflow vers Kubernetes - de manière native
- Keynote : L'avenir du flux d'air
- Exécutez les DAG Airflow de manière sécurisée
- Keynote : Faire d'Airflow un projet durable grâce à la D&I
- Airflow CI/CD : Github vers Cloud Composer (en toute sécurité)
- Superset Apache avancé pour les ingénieurs de données
- Démo : Réduire les lignes, un éditeur visuel DAG
- AIP-31 : Définition du DAG fonctionnel Airflow
- Conduite autonome avec Airflow
- De cron à Airflow sur Kubernetes : une histoire de startup
- Atteindre l’observabilité du flux d’air
- Apprentissage automatique avec Apache Airflow
- Airflow : un personnage bête dans le monde du jeu vidéo
- Dépendance inter-DAG efficace
- Ce que l'open source nous a appris sur les affaires
- Hiérarchie des besoins en ingénierie des données
- Construire des pipelines ELT réutilisables et fiables (une approche basée sur un modèle)
- Test des workflows Airflow : garantir le bon fonctionnement de vos DAG avant de passer en production
- Ajout d'un exécuteur à Airflow : une exception de débordement de contributeur
- Migration vers les fournisseurs de rétroport Airflow
- De zéro à Airflow : amorcer une plateforme ML
- Airflow est la solution idéale pour notre pipeline d'analyse
- Airflow chez Société Générale : Une solution open source d'orchestration en environnement bancaire
- Airflow comme système de flux de travail de nouvelle génération sur Pinterest
- Améliorer l'expérience utilisateur d'Airflow
- Enseigner de nouvelles astuces à un ancien DAG
- Demandez-moi n'importe quoi avec les membres Airflow
- Utiliser Airflow pour accélérer le développement d'outils gourmands en données
- Pipelines sur pipelines : workflows CI/CD agiles pour les DAG Airflow
- Image Docker de production pour Apache Airflow
- Airflow comme outil ETL élastique
- Comment raisonner sur la fiabilité de notre pipeline de données dans Wrike
- Obtenir l'observabilité d'Airflow avec Databand
- De S3 à BigQuery – Comment un nouvel utilisateur d'Airflow a réussi à mettre en œuvre un pipeline de données
Meilleures pratiques, leçons apprises et cas d'utilisation intéressants
- Comment utiliser au mieux DuckDB avec Apache Airflow - Conseils sur l'intégration de DuckDB dans les tâches Airflow.
- Gestion des packages Python Airflow Dag - La gestion des dépendances des packages Python sur plus de 100 jours peut devenir pénible. Il est difficile de savoir quels packages sont utilisés à quel moment, et difficile de nettoyer lors de la suppression/mise à niveau du DAG. Découvrez comment KubernetesPodOperator et DockerOperator peuvent résoudre ce problème.
- Airflow Dag Management & Versioning - Gérez efficacement le processus de publication des DAG à l'aide des sous-modules Git
- Tests dans Airflow Partie 2 - Chandu Kavar et Sarang Shinde ont expliqué les tests d'intégration et les tests de pipeline de bout en bout.
- Mise à niveau et mise à l'échelle du flux d'air chez Robinhood - Abishek Ray décrit comment Robinhood a abordé la mise à niveau de son flux d'air de production tout en minimisant les temps d'arrêt.
- Nous utilisons tous mal Airflow et comment y remédier - Jessica Laughlin de Bluecore partage trois problèmes d'ingénierie associés à la conception d'Airflow et comment les résoudre en utilisant KubernetesPodOperator dans deux modèles de conception.
- Premiers pas avec Data Lineage - Germain Tanguy de Dailymotion partage un prototype de data lineage intégré à Apache Airflow.
- Collaboration entre data ingénieurs, data analysts et data scientists - Germain Tanguy de Dailymotion explique comment mettre en production efficacement en collaboration avec Apache Airflow.
- Utilisation de Docker Operator d'Apache Airflow avec le référentiel de conteneurs d'Amazon - Brian Campbell de Lucid donne des conseils pour intégrer le service ECR d'AWS avec DockerOperator d'Airflow.
- Airflow : conseils, astuces et meilleures pratiques moins connus - Kaxil Naik a expliqué les conseils et les meilleures pratiques moins connus mais très utiles sur l'utilisation d'Airflow.
- couche limite : flux de travail déclaratifs de flux d'air - Kevin McHale a expliqué la couche limite du projet open source qui génère un flux d'air avec des flux de travail déclaratifs.
- Tests dans Airflow Partie 1 - Chandu Kavar a expliqué différentes catégories de tests dans Airflow. Il comprend des tests de validation DAG, des tests de définition DAG et des tests unitaires.
- Améliorer la sécurité de l'interface utilisateur d'Airflow – Joy Gao de WePay explique le besoin de contrôles d'accès basés sur les rôles (RBAC) et comment elle l'a introduit dans Airflow.
- Comment créer un flux de travail dans Apache Airflow pour suivre les épidémies en Inde - Vinayak Mehta explique comment SocialCops utilise Airflow pour exploiter le ministère indien de la Santé et des Affaires familiales afin de générer des données dérivées sur d'éventuelles épidémies.
- Flux d'air, ingénierie des métadonnées et plate-forme de données pour la plus grande démocratie du monde - Vinayak Mehta parle de l'identification de modèles d'ingénierie des données (ingénierie des métadonnées) pour automatiser la génération de DAG et de la manière dont cela a aidé SocialCops à alimenter DISHA, une plate-forme de données nationale où les députés indiens et Les députés surveillent les progrès de 42 programmes au niveau national.
- Leçons apprises lors de l'utilisation d'Airflow et d'Airflow Partie 2 : Leçons apprises - Nehil Jain a écrit une série en deux parties qui couvre la valeur des planificateurs de flux de travail, quelques bonnes pratiques et pièges qu'il a trouvés en travaillant avec Airflow. Le deuxième article comprend notamment de nombreux conseils de production.
- Pourquoi Robinhood utilise Airflow - Vineet Goel explique pourquoi la plateforme de trading financier Robinhood a choisi Airflow plutôt que des planificateurs de travail alternatifs.
- Ce que nous avons appris en migrant de Cron vers Airflow - Katie Macias décrit le parcours de l'ingénierie des données de VideoAmp, de cron vers Airflow.
- Under the Hood : Building AIR at Qubole - Sreenath Kamath et Rajat Venkatesh écrivent sur la création de la plateforme de découverte de données, d'informations et de recommandations de Qubole au sommet d'Airflow.
- Airflow : Pourquoi rien ne fonctionne ? - Le SubDagOperator d'Airflow provoque des blocages par Jessica Laughlin - Plongez en profondeur dans le dépannage d'un DAG Airflow problématique avec de bons conseils sur la façon de diagnostiquer les problèmes.
- Apache Airflow en tant que planificateur externe pour les systèmes distribués - Arunkumar suggère d'utiliser Airflow comme simple planificateur externe pour un système distribué.
- Comment Sift entraîne des milliers de modèles à l'aide d'Apache Airflow - Résumé de la stratégie de déploiement de Sift Science pour ses pipelines de modèles d'apprentissage automatique.
- Apache Airflow chez Pandora - Ace Haidrey explique pourquoi Pandora a choisi Airflow et fournit une description détaillée de leur déploiement et de l'infrastructure qui le sous-tend.
- Leçons Airflow du Data Engineering Front à Chicago - Alison Stanton fournit une liste de conseils pour éviter les pièges dans les emplois Airflow.
- L'enfer des données : 7 cercles d'enfer de tests de données avec Airflow - L'équipe Wholesale Banking Advanced Analytics d'ING détaille comment elle teste sous la torture ses DAG Airflow avant le déploiement.
- Test de données avec le référentiel Airflow
- Vérificateurs de qualité des données - Antoine Augusti décrit le cadre que Drivey a construit sur Airflow pour tester ses ensembles de données en termes d'exhaustivité, de cohérence, d'actualité, d'unicité, de validité et d'exactitude.
- Construire l'entrepôt de données de WePay à l'aide de BigQuery et Airflow - L'inestimable Chris Riccomini décrit comment WePay, l'un des premiers à avoir adopté Airflow, s'est intégré à son environnement Google Cloud Compute.
- Utiliser Apache Airflow pour créer une infrastructure de données dans le secteur public - Malgré un ton de vente malheureusement très lourd, cet article de blog décrit comment ARGO Labs, une organisation de données à but non lucratif, utilise Airflow pour l'ETLing dans les données du secteur public.
- ETL avec flux d'air : principes de base d'ETL et plusieurs exemples de bout en bout basés sur Docker, notamment Kimball, Data Vault sur Hive et quelques exemples plus simples.
- Comment agréger des données pour BigQuery à l'aide d'Apache Airflow - Exemple d'utilisation d'Airflow avec Google BigQuery pour alimenter un tableau de bord Data Studio.
- Production du ML avec des flux de travail sur Twitter – Article détaillé expliquant pourquoi et comment Twitter utilise Airflow pour les flux de travail de ML, notamment l'inclusion d'opérateurs personnalisés et d'une interface utilisateur personnalisée intégrée dans l'interface Web Airflow.
- Exécution d'Apache Airflow chez Lyft - Ceci fournit un aperçu de la façon dont Lyft exploite Apache Airflow en production (surveillance, personnalisation, etc.).
- Déploiement d'Apache Airflow dans Azure pour créer et exécuter des pipelines de données - Il parle de l'exécution d'Airflow sur Azure.
- Le Zen de Python et Apache Airflow – Article de blog sur la façon dont le Zen de Python peut être appliqué au code Airflow.
- Sécuriser l’interface utilisateur Apache Airflow AVEC l’accès au niveau DAG – Article de blog sur l’accès au niveau DAG Airflow et comment Lyft l’utilise.
- Mise à niveau d'Airflow avec zéro temps d'arrêt - Un article détaillé sur la façon de déployer Airflow sans temps d'arrêt.
- Création d'une plate-forme de pipeline ETL au niveau de la production à l'aide d'Apache Airflow - Cet article décrit comment l'équipe de gestion système de Cerner utilise Airflow.
- Airflow minimal sur Kubernetes (Local, EKS, AKS) - Un article sur le déploiement d'Airflow sur Kubernetes local, AWS EKS et Azure AKS avec une configuration minimale.
- Briser le monorepo Airflow DAG - Cet article décrit comment prendre en charge la gestion des DAG Airflow à partir de plusieurs dépôts git via S3.
- Amélioration des performances d'Apache Airflow Scheduler - L'histoire d'une aventure qui a permis à Databand d'accélérer 10 fois le temps d'analyse du DAG
- Comment SSENSE utilise Apache Airflow pour effectuer un lignage de données sur AWS - Explorer les thèmes fondamentaux de l'architecture et de la gouvernance d'un lac de données sur AWS à l'aide d'Apache Arflow.
- Surveillance d'Airflow avec Prometheus, StatsD et Grafana - Un guide sur la façon de configurer des tableaux de bord opérationnels sur le cluster de production par Databand et d'obtenir une visibilité de haut niveau sur Airflow.
- Orchestration de tâches complexes chez Hurb avec Apache Airflow - Cet article montre comment Hurb utilise Apache Airflow pour orchestrer des tâches complexes et comment il exploite la création dynamique de DAG pour améliorer la vitesse de développement.
- Automatisation de l'exportation de données de CrateDB vers S3 avec Apache Airflow Un didacticiel sur la façon d'automatiser les requêtes récurrentes dans CrateDB avec Apache Airflow, telles que l'exportation périodique de données vers Amazon S3.
- Implémentation d'une politique de conservation des données avec CrateDB et Apache Airflow Un didacticiel étape par étape sur la façon de mettre en œuvre une politique de conservation des données efficace avec CrateDB et Apache Airflow.
- Ingestion de données de taxi de New York de S3 dans CrateDB - décrit comment créer un pipeline d'ingestion de base de données dans Airflow en chargeant des fichiers CSV de S3 dans CrateDB.
Livres, blogs, podcasts, etc.
- Pipelines de données avec Apache Airflow - Un livre de Manning (accès anticipé en septembre 2019) sur Airflow.
- The Airflow Podcast – Un podcast semi-régulier discutant de tout ce qui concerne Airflow.
- Maxime Beauchemin - Le blog de Maxime sur support qui donne un aperçu de la philosophie derrière Apache Airflow.
- Robert Chang – Articles de blog sur l'ingénierie des données avec Apache Airflow, explique pourquoi et propose des exemples de code.
- Gestion des journaux Airflow avec Kubernetes Executor - Un article de blog qui explique comment configurer la journalisation S3 à distance lors de l'utilisation de KubernetesExecutor, sans créer d'infrastructure complexe.
- Airflow 2.0 : DAG Authoring Redesigned – Article de blog sur les nouvelles façons d'écrire des DAG dans Airflow 2.0.
- Fournisseurs Airflow 2.0 – Article de blog sur les packages de fournisseurs dans Airflow 2.0.
Présentations de diapositives et vidéos en ligne
- 2020-février : Apache Airflow @ Umuzi.org - Sheena O'Connell explique comment le bootcamp technologique basé en Afrique du Sud, Umuzi, utilise Airflow.
- Tutoriels YouTube Apache Airflow - Marc Lamberti a créé une série de didacticiels YouTube couvrant de nombreux aspects des concepts, de la configuration et du déploiement d'Airflow.
- Modèles d'ingénierie de données avancés avec Apache Airflow - Vidéo de la conférence de Maxime Beauchemin qui présente brièvement Airflow, puis aborde des cas d'utilisation plus avancés, notamment les requêtes SQL en libre-service, la création de cadres de métriques de tests A/B et l'extraction de fonctionnalités d'apprentissage automatique, le tout via Airflow. Les diapositives sont disponibles séparément ici.
- Pipelines de données modernes avec Apache Airflow - Une conférence donnée par Taylor Edmiston et Andy Cooper d'Astronomer.io lors de Momentum Dev Con 2018 sur la prise en main d'Airflow, les composants personnalisés, les exemples de DAG et la CLI Astronomer Airflow.
- Créer de meilleurs pipelines de données à l'aide d'Apache Airflow - Diapositives de l'exposé de Sid Anand à QCon 18 avec un aperçu complet d'Airflow et de son architecture.
- Airflow et Spark Streaming chez Astronomer - Comment Astronomer utilise des DAG dynamiques pour exécuter des tâches Spark Streaming avec Airflow.
- Apache Airflow dans le cloud : orchestrer par programmation les charges de travail avec Python – Diapositives de la conférence de Kaxil Naik et Satyasheel à PyData London 18 présentant les bases d'Airflow et comment orchestrer les charges de travail sur Google Cloud Platform (GCP).
- Développer des workflows élégants en code Python avec Apache Airflow - Michał Karzyński d'Europython donne une brève introduction aux concepts d'Airflow, y compris le rôle des gestionnaires de workflow, des DAG et des opérateurs. Le lien comprend à la fois la vidéo et les diapositives.
- Gestion du pipeline de données - Ben Goldberg explique au Chicago Kubernetes Meetup comment SpotHero utilise Airflow. De plus, Ben propose un diaporama très complet sur la façon dont Airflow joue dans Kubernetes.
- Comment j'ai appris à voyager dans le temps, ou au pipeline de données et à la planification avec Airflow - Présentation complète de Laura Lorenz expliquant pourquoi Airflow est nécessaire et comment Industry Dive l'utilise.
- Introduction à Apache Airflow - Data Day Seattle 2016 - Sid Anand donne une introduction approfondie à Airflow et à la manière dont il a été utilisé chez Agari.
- Exploitation d'un pipeline de données avec Airflow - Airflow Meetup avril 2018 - Ananth Packkildurai parle de la mise à l'échelle du flux d'air Local Executor et des meilleures pratiques pour exploiter un pipeline de données chez Slack.
- Apache Airflow chez WePay - Chris Riccomini explique pourquoi WePay a choisi Airflow et fournit une description détaillée de leur déploiement et de l'infrastructure qui le sous-tend.
- Pipelining de données élégant avec Apache Airflow - Discussions de Bolke de Bruin et Fokko Driesprong à PyData Amsterdam 2018 sur les méthodologies qui apportent de la clarté dans ETL à l'aide d'Airflow.
- Airflow @ Lyft - Discussions de Tao Feng lors de la rencontre d'analyse Big Data de SF sur la façon dont Lyft surveille l'exécution d'Airflow en production.
- Pipelines de données gérables avec Airflow et Kubernetes – Présentation de Jarek Potiuk et Szymon Przedwojski. Une conférence d'introduction sur Airflow du GDG Varsovie DevFest 2018.
- Migration des flux de travail Apache Oozie vers Apache Airflow - Présentation de Szymon Przedwojski du Meetup Airflow Bay Area de juin 2018 sur l'outil de migration Oozie vers Airflow.
- Création de lacs de données avec Apache Airflow - Présentation de Bas Harenslak et Julian de Ruiter lors de la rencontre Apache Airflow d'Amsterdam en septembre 2018 sur la création de lacs de données avec Apache Airflow comme araignée du Web gérant tous les flux de données.
- Premier Meetup Apache Airflow à Varsovie - Enregistrement diffusé en direct du premier Meetup Apache Airflow à Varsovie en octobre 2019.
- Qu'est-ce qui arrive dans Apache Airflow 2.0 - conférence conjointe d'Ash Berlin-Taylor, Kaxil Naik, Jarek Potiuk, Kamil Breguła, Daniel Imbermann et Tomek Urbaszek lors du Meetup en ligne à New York, le 13 mai 2020
- Airflow Breeze - Environnement de développement et de test pour Apache Airflow - Screencast montrant comment utiliser l'environnement Breeze par Jarek Potiuk.
Bibliothèques, crochets, utilitaires
- Domino - Domino est une plate-forme d'interface utilisateur graphique open source permettant de créer des flux de données et d'apprentissage automatique (DAG) avec des actions de glisser-déposer sans code et visuellement intuitives. C'est également un standard pour publier et partager votre code Python afin qu'il puisse être automatiquement utilisé par n'importe qui, directement dans l'interface graphique.
- Airflow-Helper - configuration des variables, des connexions et des pools Airflow à partir d'un fichier de configuration YAML.
- AirFly - Génère automatiquement le dag.py d'Airflow à la volée.
- DEAfrica Airflow - Bibliothèques Airflow utilisées par Digital Earth Africa, un effort humanitaire visant à utiliser l'imagerie satellite de l'Afrique.
- Plugins Airflow - Collection centrale de référentiels de divers plugins pour Airflow, notamment mailchimp, trello, sftp, GitHub, etc.
- fileflow - Collection de modules pour prendre en charge les transferts de données volumineux entre les opérateurs Airflow via le système de fichiers local ou S3. Cela comble une lacune où les données sont trop volumineuses pour les XCOM mais trop petites ou peu pratiques pour être chargées directement dans l'opérateur. Construit par Industry Dive.
- fairflow - Bibliothèque pour résumer les opérateurs d'Airflow avec des éléments fonctionnels qui transforment les données d'un opérateur à un autre.
- airflow-maintenance-dags - Clairvoyant dispose d'un dépôt de DAG Airflow qui opèrent sur Airflow lui-même, effaçant divers éléments du magasin de métadonnées de support.
- test_dags - une solution plus complète pour les tests d'intégrité DAG (le premier Circle of Data's Inferno est le premier.
- dag-factory - Une bibliothèque pour générer dynamiquement des DAG Apache Airflow à partir de fichiers de configuration YAML.
- whirl - Développement local itératif rapide et tests des flux de travail Apache Airflow.
- airflow-code-editor - Un plugin pour Apache Airflow qui vous permet de modifier les DAG dans le navigateur.
- Pylint-Airflow - Un plugin Pylint pour l'analyse de code statique sur le code Airflow.
- afctl - Un outil CLI qui comprend tout le nécessaire pour créer, gérer et déployer des projets de flux d'air plus rapidement et plus facilement.
- Visionneuse de dépendances Dag - Un plugin qui crée une vue pour visualiser les dépendances entre les DAG Airflow
- Plugin Airflow ECR - Plugin pour actualiser le jeton de connexion AWS ECR à intervalles réguliers. Ceci est utile lorsque DockerOperator doit extraire des images hébergées sur ECR.
- AirflowK8sDebugger - Une bibliothèque pour générer des modèles yaml de pod k8s à partir d'un dag Airflow à l'aide de KubernetesPodOperator.
- Oozie to Airflow - Un outil pour convertir facilement entre les workflows Apache Oozie et les workflows Apache Airflow.
- Airflow Ditto - Un framework extensible pour effectuer des transformations sur un DAG Airflow et le convertir en un autre DAG isomorphe en flux avec le DAG d'origine, pour pouvoir l'exécuter sur différents environnements (par exemple sur différents cloud, ou même différents frameworks de conteneurs - Apache Spark sur YARN vs Kubernetes). Livré avec une prise en charge prête à l'emploi pour les transformations EMR vers HDInsight-DAG.
- gusty - Créez un DAG en utilisant un nombre quelconque de fichiers YAML, Python, Jupyter Notebook ou R Markdown qui représentent des tâches individuelles dans le DAG. gusty configure également les dépendances, les DAG et les groupes de tâches, propose la prise en charge de vos opérateurs locaux, et bien plus encore. Une démo entièrement conteneurisée est disponible ici.
- Meltano - Outil ELT open source, auto-hébergé, CLI-first, déboguable et extensible qui intègre Singer pour l'extraction et le chargement, exploite dbt pour la transformation et s'intègre à Airflow pour l'orchestration.
- Vérifications DAG - Les vérifications DAG consistent en des vérifications qui peuvent vous aider à maintenir votre instance Apache Airflow.
- Plugin Airflow DVC - Plugin pour système de contrôle de version open source pour les pipelines de science des données et d'apprentissage automatique - DVC.
- Airflow Vars - Une CLI pour la gestion des variables, créée pour CD-Pipelines afin de permettre une gestion robuste et sûre des variables.
- airflow-priority - Balises de priorité (P1, P2, etc.) pour les DAG Airflow avec alertes automatisées vers Datadog, New Relic, Slack, Discord, etc.
- airflow-config - Système de configuration basé sur Pydantic/Hydra pour les arguments DAG et Task
- airflow-supervisor - Intégration de superviseur facile à utiliser pour les DAG de longue durée ou "toujours actifs"
Rencontres
- Meetup Apache Airflow à Amsterdam
- Rencontre Apache Airflow à Bangalore
- Meetup Apache Airflow dans la région de la Baie
- Meetup Apache Airflow à Londres
- Meetup Apache Airflow à Melbourne
- Meetup Apache Airflow à New York
- Meetup Apache Airflow à Paris
- Meetup Portland Apache Airflow
- Meetup Apache Airflow à Tokyo
- Meetup Apache Airflow de Varsovie
Fournisseurs de flux d'air commerciaux en tant que service
- Google Cloud Composer – Google Cloud Composer est un service géré construit sur Google Cloud et Airflow.
- Qubole - Qubole est principalement connue comme une société de services et d'assistance pour Apache Hive, mais fournit également Airflow comme composant de sa plate-forme.
- Astronomer.io - Astronomer fournit des solutions complètes de cycle de vie ETL et semble se concentrer entièrement sur la fourniture de produits basés sur Airflow.
- AWS MWAA - Amazon Managed Workflows for Apache Airflow (MWAA) est un service d'orchestration géré pour Apache Airflow qui facilite la configuration et l'exploitation de pipelines de données de bout en bout dans le cloud à grande échelle.
Ressources Cloud Composer
Cette section contient des articles qui s'appliquent à Cloud Composer, un service créé par Google Cloud basé sur Apache Airflow. Les astuces et solutions décrites ici sont destinées à Cloud Composer, mais peuvent être applicables à Vanilla Airflow.
- Activation de l'autoscaling dans Google Cloud Composer : dynamisez votre déploiement Cloud Composer tout en économisant certains coûts pendant les périodes d'inactivité.
- Faites évoluer votre environnement Composer en fonction de votre entreprise - L'architecture Celery Executor et les moyens de garantir des performances élevées du planificateur.
- pianka.sh - Commande manquante dans l'outil gcloud. Cet outil facilite certaines tâches administratives.
- Une manière plus intelligente d'évoluer avec Airflow Scheduler de Composer sur GKE : Roy Berkowitz discute d'une utilisation plus efficace des nœuds dans le service Cloud Composer.
- Mieux ensemble : orchestrer vos pipelines Data Fusion avec Cloud Composer - Rachael Deacon-Smith donne une présentation de l'opérateur pour le cas d'utilisation de Datafusion sur Cloud Composer.
Ressources non anglaises
- Documentation Airflow-Chinois - (??Chinois) Apachecn a traduit la documentation officielle d'Airflow.
- Gestion de Tâches avec Apache Airflow - (??Français) Nicolas Crocfer - Présentation d'Airflow, concepts de base et comment écrire et déclencher un DAG.
- Airflow - (?? Japonais) Hank Ehly donne une introduction complète aux principaux concepts d'Airflow et montre comment créer un pipeline de données en moins de 100 lignes de code.
- apache airflow 複数worker構成のalpine版docker imageを作った - (??Japonais) Akio Ohta parcourt son image Docker pour le déploiement d'un système Airflow basé sur Alpine.
- AirflowのタスクログをS3に保存する方法 - (??Japonais) Hank Ehly montre étape par étape comment configurer l'envoi de journaux de tâches à AWS S3.
- 【徹底解説】Airflow Fluentd Elasticsearch Docker の連携方法 - (??Japonais) Hank Ehly décrit comment gérer les journaux de tâches des travailleurs avec Fluentd, Elasticsearch et Docker.
- Apache Airflow – Kaikki Mitä Meillä On, Lähtee Dageista - (?? Finnois) Présentation d'Olli Iivonen sur Airflow, les concepts et l'utilisation d'Airflow chez Solita.
- Airflow - Automatizando seu fluxo de trabalho - (??Portugais) Présentation de Gilson Filho sur Airflow, concept et utilisation de base.
- Panduan Dasar Apache Airflow - (??Indonésien) Imam Digmi - Présentation d'Airflow, concept, utilisation de base avec cas d'utilisation.
- Airflow - (??Vietnamien) Duyet Le - Présentation d'Airflow, concept, utilisation de base avec cas d'utilisation.
- Articles du blog chinois Airflow de Michael Yang - Les articles du blog chinois de Michael Yang sur l'ingénierie des données avec Apache Airflow concluent des didacticiels de base et des compétences de développement.
Exemples de projets
- Pipelines d'ensembles de données publics Google Cloud Platform : architecture de pipeline de données cloud native pour l'intégration d'ensembles de données au programme d'ensembles de données publics Google Cloud.
- DAG GitLab Data Team – Plusieurs DAG utilisés pour créer des analyses pour la plateforme GitLab.
- déployer-airflow-on-ecs-fargate - Déployer sur Amazon ECS Fargate. Présente diverses fonctionnalités et configurations, telles que la mise à l'échelle automatique des nœuds de calcul à zéro, la journalisation à distance S3 et la gestion des secrets.
Licence
Dans la mesure où la loi le permet, Jakob Homan a renoncé à tous les droits d'auteur et droits voisins ou voisins sur cette œuvre.