Impresionante flujo de aire Apache
Esta es una lista seleccionada de recursos sobre Apache Airflow. No dude en contribuir con cualquier elemento que deba incluirse. Los elementos generalmente se agregan en la parte superior de cada sección para que los elementos más nuevos aparezcan de manera más destacada.
Contenido
- Enlaces vitales
- Soluciones de implementación de flujo de aire
- Introducciones y tutoriales
- Vídeos de la Cumbre de flujo de aire 2020
- Mejores prácticas, lecciones aprendidas y casos de uso interesantes
- Libros, blogs, podcasts y demás.
- Presentaciones de diapositivas y vídeos en línea.
- Bibliotecas, ganchos, utilidades
- Reuniones
- Proveedores comerciales de flujo de aire como servicio
- Recursos de Cloud Composer
- Recursos no ingleses
Enlaces vitales
- Código fuente (última versión estable 1.10.12)
- Documentación (también el sitio web oficial)
- Página de confluencia
- Espacio de trabajo flojo
Soluciones de implementación de flujo de aire
- Instalación de Airflow en IBM Cloud: implementación rápida y sencilla en IBM Cloud con IBM Bitnami Charts
- Tres formas de ejecutar Airflow en Kubernetes: Tim van de Keer explica varios métodos para implementar Airflow en Kubernetes.
- Implementación gratuita de varios niveles de Apache Airflow en Azure: una plantilla gratuita de Azure Resource Manager (ARM) de Bitnami que proporciona una solución con un solo clic para la implementación de Airflow en Azure para casos de uso de producción.
- KubernetesExecutor Helm Chart: un Helm Chart sencillo que utiliza KubernetesExecutor para una experiencia más nativa de k8 y una imagen complementaria de KubernetesExecutor Docker.
- Gráfico de Helm estable de apio: gráfico de Helm seleccionado en el repositorio oficial de gráficos estables.
- Imagen de Docker de Puckel: la imagen de Docker bien diseñada de @Puckel_ se ha convertido en la base de muchas instalaciones de Airflow. Se actualiza periódicamente y sigue de cerca las versiones oficiales de Apache.
- Operador personalizado de Kubernetes para implementar Airflow: controlador personalizado de Kubernetes (también llamado patrón de operador) para implementar Airflow en Kubernetes.
- airflow-pipeline: contenedor Airflow Docker que viene preconfigurado para Spark y Hadoop. Se puede extraer de la ventana acoplable en
datagovsg/airflow-pipeline
. - aws-airflow-stack: implementación de un clúster de Airflow basado en AWS con CeleryExecutor. Se implementa después de unos pocos clics con CloudFormation.
- kube-airflow: este repositorio contiene una imagen de Airflow Docker (que parece haberse basado en el trabajo de Puckel) y una definición del servicio Kubernetes. El repositorio de mumoshu no se ha actualizado recientemente, pero existen numerosas bifurcaciones que pueden estar basadas en versiones más recientes.
- airflow-on-kubernetes: una guía sobre todos los recursos, scripts y proyectos relevantes relacionados con la ejecución de Airflow en Kubernetes.
- airflow-k8s-executor-on-GKE: un tutorial detallado para implementar un entorno de ejecución de Kubernetes de flujo de aire escalable y de bajo mantenimiento en Google Kubernetes Engine con helm.
- airflow-cookbook: libro de cocina del chef para implementar Airflow.
- Ejecución de Airflow sobre Apache Mesos: blog que describe cómo configurar Mesos para ejecutar todos los componentes de Airflow.
- Integración de Apache Airflow con Apache Ambari: Mykola Mykhalov explica el uso de Apache Ambari para configurar e implementar una instancia de Airflow.
- Plataforma Astronomer: Apache Airflow como servicio en Kubernetes. Para obtener más información, visite https://www.astronomer.io.
- Imagen de Bitnami Airflow Docker: una imagen de Docker segura y actualizada para Airflow mantenida por Bitnami.
- Imagen de la ventana acoplable de Bitnami Airflow Scheduler: una imagen de la ventana acoplable segura y actualizada para Airflow Scheduler mantenida por Bitnami.
- Imagen de Docker de Bitnami Airflow Worker: una imagen de Docker segura y actualizada para Airflow Worker mantenida por Bitnami. Una implementación de Docker Compose de CeleryExecutor está disponible aquí.
- Distribuya e implemente Apache Airflow a través de archivos Python PEX: repositorio de ejemplo con pasos para agrupar, distribuir e implementar Apache Airflow como archivos PEX.
- Presentamos KEDA para Airflow: cómo utilizar el sistema de escalado KEDA para permitir el escalado automático de los trabajadores del apio en función de los datos almacenados en la base de datos de metadatos de Airflow.
- Airflow-Component: instalador liviano de la arquitectura de referencia federada Airflow-Airflow (RabbitMQ) en nodos de Compute.
Introducciones y tutoriales
- Métricas de monitoreo de flujo de aire de Apache: una serie de dos partes de maxcotec sobre cómo puede utilizar las métricas de estadísticas de flujo de aire existentes para monitorear su implementación de flujo de aire en el panel de Grafana a través de Prometheus. Aprenda también a crear métricas personalizadas.
- Introducción a Airflow: una serie de tutoriales web de maxcotec para usuarios principiantes e intermedios de Apache Airflow.
- ETL con Apache Airflow para análisis de datos de transacciones. Kimaru Thagana cubre un caso práctico de cómo realizar un proceso ETL utilizando Apache Airflow utilizando datos transaccionales, de usuarios y de productos de una tienda de comercio electrónico ficticia. Los datos se entregan a través de una API de matraz.
- Comience a construir mejores canalizaciones de datos con Apache Airflow 2020-octubre: Naman Gupta cubre los conceptos básicos de Airflow y sus conceptos.
- Plantilla de repositorio de Airflow: un repositorio estándar para desarrollar localmente con Airflow, con linting y pruebas para DAG y complementos válidos. ¡Simplemente clona y ejecuta
make start-airflow
para comenzar! Agregue algunos trabajos de CI para implementar su código y listo. - Cómo Apache Airflow distribuye trabajos en los trabajadores de Celery: una breve descripción de los pasos seguidos por una instancia de tarea, desde la programación hasta el éxito, en una arquitectura distribuida.
- Envío remoto de Spark a YARN ejecutándose en EMR: Azhaguselvan explica cómo enviar trabajos de Spark a clústeres de EMR existentes con Airflow.
- Ejecutar Airflow sobre Apache Mesos y su seguimiento, Mesos, Airflow & Docker de Agraj Mangal es una descripción general rápida de cómo ejecutar Airflow sobre Apache Mesos.
- Dustin Stansbury de Quizlet ha escrito una serie de cuatro partes que cubre lo que hacen los administradores de flujo de trabajo en general, cómo Quizlet eligió Airflow, un recorrido por los conceptos clave de Airflow y cómo Quizlet ahora usa Airflow en la práctica:
- Más allá de CRON: una introducción a los sistemas de gestión de flujo de trabajo
- Por qué Quizlet eligió Apache Airflow para ejecutar flujos de trabajo de datos
- Comprender los conceptos clave de Apache Airflow
- Cómo Quizlet utiliza Apache Airflow en la práctica
- Integración de Apache Airflow con Databricks: si bien este tutorial se centra específicamente en las soluciones Spark de Databricks, ofrece una descripción general razonable de los conceptos básicos de Airflow y demuestra cómo una solución de terceros puede integrarse rápidamente en Airflow.
- Tutorial de Apache Airflow 2.0: este artículo analiza los conceptos básicos que respaldan Airflow y analiza los problemas que resuelve.
- Prueba y depuración de Apache Airflow: artículo que explica cómo aplicar pruebas unitarias, burlas y depuración al código de Airflow.
- Comience a desarrollar flujos de trabajo con Apache Airflow: este breve tutorial introductorio cubre cómo crear una canalización de datos y un flujo de trabajo de procesamiento usando DAG, operadores, Sensor y usando Xcoms para comunicarse entre operadores.
- Comience con Airflow + Google Cloud Platform + Docker: introducción paso a paso de Jayce Jiang.
- Cómo desarrollar una canalización de datos en Airflow a través de TDD (desarrollo basado en pruebas): aprenda cómo crear una canalización de datos de ventas usando TDD paso a paso y, al final, cómo configurar un flujo de trabajo de CI simple usando Github Actions.
Vídeos de la Cumbre del flujo de aire 2020
La primera Airflow Summit 2020 se celebró en julio de 2020. Fue un evento verdaderamente global y totalmente en línea que fue coorganizado por 9 Airflow Meetups de todo el mundo (Melbourne, Tokio, Bangalore, Varsovia, Ámsterdam, Londres, Nueva York, BayArea ).
Contó con más de 40 charlas y tres talleres. Puede ver las grabaciones de las charlas como una lista de reproducción de YouTube Airflow Summit 2020 o ver las charlas individuales aquí:
- Keynote: Flujo de aire antes y ahora
- Programador como servicio: Apache Airflow en EA Digital Platform
- Keynote: Cómo las grandes empresas utilizan Airflow para canalizaciones de ML y ETL
- DAG de datos con linaje para diversión y ganancias
- Airflow en Kubernetes: contener sus flujos de trabajo
- Flujo de datos con Airflow @ PayPal
- Flujos de trabajo de datos democratizados a escala
- Migración de trabajos Spark basados en Airflow a Kubernetes: de forma nativa
- Conferencia magistral: El futuro del flujo de aire
- Ejecute Airflow DAG de forma segura
- Keynote: Hacer de Airflow un proyecto sustentable a través de D&I
- Airflow CI/CD: Github a Cloud Composer (de forma segura)
- Superconjunto de Apache avanzado para ingenieros de datos
- Demostración: Reducción de líneas, un editor visual DAG
- AIP-31: Definición de DAG funcional de flujo de aire
- Conducción autónoma con Airflow
- De cron a Airflow en Kubernetes: una historia de startup
- Lograr la observabilidad del flujo de aire
- Aprendizaje automático con Apache Airflow
- Airflow: un personaje bestial en el mundo de los videojuegos
- Dependencia efectiva entre DAG
- Lo que el código abierto nos enseñó sobre los negocios
- Jerarquía de necesidades de ingeniería de datos
- Creación de canales de ELT reutilizables y confiables (un enfoque basado en plantillas)
- Prueba de los flujos de trabajo de Airflow: asegúrese de que sus DAG funcionen antes de entrar en producción
- Agregar un ejecutor a Airflow: una excepción de desbordamiento del colaborador
- Migración a proveedores de backport de Airflow
- De cero a Airflow: iniciando una plataforma de aprendizaje automático
- Airflow es la combinación perfecta en nuestro proceso de análisis
- Airflow en Société Générale: una solución de orquestación de código abierto en un entorno bancario
- Airflow como la próxima generación de sistemas de flujo de trabajo en Pinterest
- Mejorando la experiencia del usuario de Airflow
- Enseñar nuevos trucos a un viejo DAG
- Pregúntame cualquier cosa con los miembros de Airflow
- Uso de Airflow para acelerar el desarrollo de herramientas con uso intensivo de datos
- Tuberías sobre tuberías: flujos de trabajo ágiles de CI/CD para Airflow DAG
- Imagen de Docker de producción para Apache Airflow
- El flujo de aire como herramienta ETL elástica
- ¿Cómo razonamos sobre la confiabilidad de nuestra canalización de datos en Wrike?
- Lograr la observabilidad del flujo de aire con Databand
- De S3 a BigQuery: cómo un usuario nuevo de Airflow implementó con éxito una canalización de datos
Mejores prácticas, lecciones aprendidas y casos de uso interesantes
- Cómo utilizar mejor DuckDB con Apache Airflow: consejos para integrar DuckDB en trabajos de Airflow.
- Gestión de paquetes de Python de Airflow Dag: gestionar las dependencias de paquetes de Python en más de 100 dags puede resultar complicado. Es difícil realizar un seguimiento de qué paquetes utiliza cada dag y es difícil limpiarlo durante la eliminación/actualización de DAG. Descubra cómo KubernetesPodOperator y DockerOperator pueden solucionar este problema.
- Gestión y control de versiones de Airflow Dag: administre de manera eficiente el proceso de lanzamiento de DAG mediante el uso de submódulos de Git
- Pruebas en flujo de aire, parte 2: Chandu Kavar y Sarang Shinde explicaron las pruebas de integración y las pruebas de canalización de un extremo a otro.
- Actualización y ampliación del flujo de aire en Robinhood: Abishek Ray describe cómo Robinhood abordó la mejora de su flujo de aire de producción minimizando el tiempo de inactividad.
- Todos usamos Airflow incorrectamente y cómo solucionarlo: Jessica Laughlin de Bluecore comparte tres problemas de ingeniería asociados con el diseño de Airflow y cómo resolverlos utilizando KubernetesPodOperator en dos patrones de diseño.
- Comenzando con Data Lineage: Germain Tanguy de Dailymotion comparte un prototipo de linaje de datos integrado en Apache Airflow.
- Colaboración entre ingenieros de datos, analistas de datos y científicos de datos: Germain Tanguy de Dailymotion comparte cómo realizar lanzamientos eficientes en producción mediante la colaboración con Apache Airflow.
- Uso del operador Docker de Apache Airflow con el repositorio de contenedores de Amazon: Brian Campbell de Lucid tiene consejos para integrar el servicio ECR de AWS con DockerOperator de Airflow.
- Airflow: consejos, trucos y mejores prácticas menos conocidos: Kaxil Naik ha explicado los consejos y las mejores prácticas menos conocidos pero muy útiles sobre el uso de Airflow.
- capa límite: flujos de trabajo de flujo de aire declarativos: Kevin McHale ha explicado la capa límite del proyecto de código abierto que genera flujo de aire con flujos de trabajo declarativos.
- Pruebas en Airflow Parte 1: Chandu Kavar ha explicado diferentes categorías de pruebas en Airflow. Incluye pruebas de validación de DAG, pruebas de definición de DAG y pruebas unitarias.
- Mejora de la seguridad de la interfaz de usuario de Airflow: Joy Gao de WePay analiza la necesidad de controles de acceso basados en roles (RBAC) y cómo los introdujo en Airflow.
- Cómo crear un flujo de trabajo en Apache Airflow para rastrear los brotes de enfermedades en la India: Vinayak Mehta detalla cómo SocialCops utiliza Airflow para raspar el Ministerio de Salud y Asuntos Familiares de la India para generar datos derivados sobre posibles brotes de enfermedades.
- Flujo de aire, ingeniería de metadatos y una plataforma de datos para la democracia más grande del mundo: Vinayak Mehta habla sobre la identificación de patrones de ingeniería de datos (ingeniería de metadatos) para automatizar la generación de DAG y cómo eso ayudó a SocialCops a impulsar DISHA, una plataforma de datos nacional donde los parlamentarios indios y Los MLA monitorean el progreso de 42 esquemas a nivel nacional.
- Lecciones aprendidas mientras utilizaba Airflow y Airflow Parte 2: Lecciones aprendidas: Nehil Jain ha escrito una serie de dos partes que cubre el valor de los programadores de flujo de trabajo, algunas de las mejores prácticas y los obstáculos que encontró mientras trabajaba con Airflow. En particular, el segundo artículo incluye muchos consejos de producción.
- Por qué Robinhood usa Airflow: Vineet Goel explica por qué la plataforma de comercio financiero Robinhood eligió Airflow en lugar de programadores de trabajo alternativos.
- Lo que aprendimos al migrar de Cron a Airflow: Katie Macias describe el viaje de Ingeniería de datos de VideoAmp de cron a Airflow.
- Bajo el capó: Construyendo AIR en Qubole: Sreenath Kamath y Rajat Venkatesh escriben sobre la construcción de la plataforma de recomendaciones, conocimientos y descubrimiento de datos de Qubole sobre Airflow.
- Flujo de aire: ¿Por qué no funciona nada? - TL;DR SubDagOperator de Airflow provoca interbloqueos por Jessica Laughlin - Profundice en la solución de problemas de un DAG de Airflow problemático con buenos consejos sobre cómo diagnosticar problemas.
- Apache Airflow como programador externo para sistemas distribuidos: Arunkumar sugiere usar Airflow como un programador externo simple para un sistema distribuido.
- Cómo Sift entrena miles de modelos utilizando Apache Airflow: resumen de la estrategia de implementación de Sift Science para sus canales de modelos de aprendizaje automático.
- Apache Airflow en Pandora: Ace Haidrey analiza por qué Pandora eligió Airflow y proporciona un desglose detallado de su implementación y la infraestructura detrás de ella.
- Lecciones de flujo de aire del frente de ingeniería de datos en Chicago: Alison Stanton proporciona una lista de consejos para evitar errores en los trabajos de flujo de aire.
- El infierno de los datos: 7 círculos de datos que prueban el infierno con Airflow: el equipo de análisis avanzado de banca mayorista de ING detalla cómo prueban con tortura sus DAG Airflow antes de su implementación.
- Pruebas de datos con el repositorio de Airflow
- Comprobadores de calidad de datos: Antoine Augusti describe el marco que drivy ha construido sobre Airflow para probar la integridad, coherencia, puntualidad, singularidad, validez y precisión de sus conjuntos de datos.
- Construyendo el almacén de datos de WePay usando BigQuery y Airflow: el inestimable Chris Riccomini describe cómo WePay, uno de los primeros en adoptar Airflow, se integró en su entorno Google Cloud Compute.
- Uso de Apache Airflow para crear infraestructura de datos en el sector público: a pesar de un tono de ventas lamentablemente muy intenso, la publicación de este artículo describe cómo ARGO Labs, una organización de datos sin fines de lucro, utiliza Airflow para ETLing en datos del sector público.
- ETL con flujo de aire: principios básicos de ETL y varios ejemplos basados en Docker de un extremo a otro, incluidos Kimball, Data Vault en Hive y algunos ejemplos más simples.
- Cómo agregar datos para BigQuery usando Apache Airflow: ejemplo de cómo usar Airflow con Google BigQuery para impulsar un panel de Data Studio.
- Cómo producir ML con flujos de trabajo en Twitter: publicación detallada sobre por qué y cómo Twitter usa Airflow para flujos de trabajo de ML, incluida la inclusión de operadores personalizados y una interfaz de usuario personalizada integrada en la interfaz web de Airflow.
- Ejecución de Apache Airflow en Lyft: esto proporciona una descripción general de cómo Lyft opera Apache Airflow en producción (monitoreo, personalización, etc.).
- Implementación de Apache Airflow en Azure para crear y ejecutar canalizaciones de datos: habla sobre la ejecución de Airflow en Azure.
- El Zen de Python y Apache Airflow: publicación de blog sobre cómo se puede aplicar el Zen de Python al código Airflow.
- Protección de la interfaz de usuario de Apache Airflow CON acceso al nivel DAG: publicación de blog sobre el acceso al nivel DAG de Airflow y cómo lo usa Lyft.
- Actualización de Airflow sin tiempo de inactividad: un artículo detallado sobre cómo implementar Airflow sin tiempo de inactividad.
- Creación de una plataforma de canalización ETL a nivel de producción utilizando Apache Airflow: esta publicación describe cómo el equipo de gestión de sistemas de Cerner utiliza Airflow.
- Flujo de aire mínimo en Kubernetes (local, EKS, AKS): un artículo sobre la implementación de Airflow en Kubernetes, AWS EKS y Azure AKS locales con una configuración mínima.
- División del monorepo de Airflow DAG: esta publicación describe cómo admitir la administración de Airflow DAG desde múltiples repositorios de git a través de S3.
- Mejora del rendimiento de Apache Airflow Scheduler: una historia de una aventura que permitió a Databand acelerar el tiempo de análisis de DAG 10 veces
- Cómo SSENSE utiliza Apache Airflow para realizar Data Lineage en AWS: exploración de los temas fundamentales de la arquitectura y el gobierno de un lago de datos en AWS utilizando Apache Arflow.
- Monitoreo de Airflow con Prometheus, StatsD y Grafana: una guía sobre cómo configurar paneles operativos para el clúster de producción mediante Databand y obtener visibilidad de alto nivel en Airflow.
- Orquestación de tareas complejas en Hurb con Apache Airflow: esta publicación muestra cómo Hurb usa Apache Airflow para orquestar tareas complejas y cómo aprovecha la creación dinámica de DAG para mejorar la velocidad de desarrollo.
- Automatización de la exportación de datos de CrateDB a S3 con Apache Airflow Un tutorial sobre cómo automatizar consultas recurrentes en CrateDB con Apache Airflow, como la exportación periódica de datos a Amazon S3.
- Implementación de una política de retención de datos con CrateDB y Apache Airflow Un tutorial paso a paso sobre cómo implementar una política de retención de datos efectiva con CrateDB y Apache Airflow.
- Ingesta de datos de taxis de la ciudad de Nueva York desde S3 a CrateDB: describe cómo crear una canalización de ingesta de base de datos en Airflow cargando archivos CSV desde S3 a CrateDB.
Libros, blogs, podcasts y demás.
- Canalizaciones de datos con Apache Airflow: un libro de Manning (acceso anticipado de septiembre de 2019) sobre Airflow.
- The Airflow Podcast: un podcast semiregular que analiza todo lo relacionado con Airflow.
- Maxime Beauchemin: el blog de Maxime sobre medios que brinda información sobre la filosofía detrás de Apache Airflow.
- Robert Chang: publicaciones de blog sobre ingeniería de datos con Apache Airflow, explica por qué y tiene ejemplos en código.
- Manejo de registros de Airflow con Kubernetes Executor: una publicación de blog que describe cómo puede configurar el registro remoto de S3 cuando usa KubernetesExecutor, sin crear una infraestructura compleja.
- Airflow 2.0: Creación de DAG rediseñada: publicación de blog sobre nuevas formas de escribir DAG en Airflow 2.0.
- Proveedores de Airflow 2.0: publicación de blog sobre paquetes de proveedores en Airflow 2.0.
Presentaciones de diapositivas y vídeos en línea.
- 2020-febrero: Apache Airflow @ Umuzi.org: Sheena O'Connell analiza cómo el campo de entrenamiento tecnológico Umuzi, con sede en Sudáfrica, utiliza Airflow.
- Tutoriales de Apache Airflow en YouTube: Marc Lamberti ha creado una serie de tutoriales en YouTube que cubren muchos aspectos de los conceptos, la configuración y la implementación de Airflow.
- Patrones avanzados de ingeniería de datos con Apache Airflow: vídeo de la charla de Maxime Beauchemin que presenta brevemente Airflow y luego analiza casos de uso más avanzados, incluidas consultas SQL de autoservicio, creación de marcos de métricas de pruebas A/B y extracción de funciones de aprendizaje automático, todo a través de Airflow. Las diapositivas están disponibles por separado aquí.
- Modern Data Pipelines con Apache Airflow: una charla impartida por Taylor Edmiston y Andy Cooper de Astronomer.io en Momentum Dev Con 2018 sobre cómo comenzar con Airflow, componentes personalizados, DAG de ejemplo y la CLI de Astronomer Airflow.
- Creación de mejores canalizaciones de datos utilizando Apache Airflow: diapositivas de la charla de Sid Anand en la QCon 18 con una descripción detallada de Airflow y su arquitectura.
- Airflow y Spark Streaming en Astronomer: cómo Astronomer utiliza DAG dinámicos para ejecutar trabajos de Spark Streaming con Airflow.
- Apache Airflow en la nube: orquestación programática de cargas de trabajo con Python: diapositivas de la charla de Kaxil Naik y Satyasheel en PyData London 18 que presentan los conceptos básicos de Airflow y cómo orquestar cargas de trabajo en Google Cloud Platform (GCP).
- Desarrollo de flujos de trabajo elegantes en código Python con Apache Airflow: Michał Karzyński en Europython ofrece una breve introducción a los conceptos de Airflow, incluida la función de los administradores de flujo de trabajo, DAG y operadores. El enlace incluye vídeo y diapositivas.
- Gestión de canalización de datos: Ben Goldberg explica en el Meetup de Kubernetes de Chicago cómo SpotHero utiliza Airflow. Además, Ben tiene una presentación de diapositivas muy completa sobre cómo funciona Airflow dentro de Kubernetes.
- Cómo aprendí a viajar en el tiempo o a canalizar y programar datos con Airflow: presentación completa de Laura Lorenz que explica por qué Airflow es necesario y cómo lo utiliza Industry Dive.
- Introducción a Apache Airflow - Data Day Seattle 2016: Sid Anand ofrece una introducción exhaustiva a Airflow y cómo se utilizó en Agari.
- Operación de canalización de datos con flujo de aire: reunión de flujo de aire de abril de 2018: Ananth Packkildurai habla sobre cómo ampliar el flujo de aire con Local Executor y las mejores prácticas para operar la canalización de datos en Slack.
- Apache Airflow en WePay: Chris Riccomini analiza por qué WePay eligió Airflow y proporciona un desglose detallado de su implementación y la infraestructura detrás de ella.
- Canalización de datos elegante con Apache Airflow: charlas de Bolke de Bruin y Fokko Driesprong en PyData Amsterdam 2018 sobre metodologías que brindan claridad en ETL usando Airflow.
- Airflow @ Lyft: Charlas de Tao Feng en la reunión de análisis de big data de SF sobre cómo Lyft monitorea la ejecución de Airflow en producción.
- Canalizaciones de datos gestionables con Airflow y Kubernetes: charla de Jarek Potiuk y Szymon Przedwojski. Una charla introductoria sobre Airflow del GDG Varsovia DevFest 2018.
- Migración de flujos de trabajo de Apache Oozie a Apache Airflow: charla de Szymon Przedwojski de la reunión del área de Airflow Bay de junio de 2018 sobre la herramienta de migración de Oozie a Airflow.
- Creación de lagos de datos con Apache Airflow: charla de Bas Harenslak y Julian de Ruiter en la reunión de Amsterdam Apache Airflow de septiembre de 2018 sobre la creación de lagos de datos con Apache Airflow como la araña en la red que gestiona todos los flujos de datos.
- Primera reunión de Apache Airflow en Varsovia: grabación transmitida en vivo de la primera reunión de Apache Airflow en Varsovia en octubre de 2019.
- Lo que viene en Apache Airflow 2.0: charla conjunta de Ash Berlin-Taylor, Kaxil Naik, Jarek Potiuk, Kamil Breguła, Daniel Imbermann y Tomek Urbaszek en el Online NYC Meetup, 13 de mayo de 2020
- Airflow Breeze - Entorno de desarrollo y prueba para Apache Airflow - Screencast que muestra cómo utilizar el entorno Breeze por Jarek Potiuk.
Bibliotecas, ganchos, utilidades
- Domino: Domino es una plataforma de interfaz gráfica de usuario de código abierto para crear datos y flujos de trabajo de aprendizaje automático (DAG) con acciones de arrastrar y soltar visualmente intuitivas y sin código. También es un estándar para publicar y compartir su código Python, de modo que cualquier persona pueda usarlo automáticamente, directamente en la GUI.
- Airflow-Helper: configuración de variables, conexiones y grupos de flujo de aire desde un archivo de configuración YAML.
- AirFly: genera automáticamente dag.py de Airflow sobre la marcha.
- DEAfrica Airflow: bibliotecas de flujo de aire utilizadas por Digital Earth Africa, un esfuerzo humanitario para utilizar imágenes satelitales de África.
- Complementos de Airflow: colección central de repositorios de varios complementos para Airflow, incluidos mailchimp, trello, sftp, GitHub, etc.
- fileflow: colección de módulos para admitir grandes transferencias de datos entre operadores de Airflow a través del sistema de archivos local o S3. Esto soluciona un problema en el que los datos son demasiado grandes para los XCOM pero demasiado pequeños o inconvenientes para cargarlos directamente en el operador. Construido por Industry Dive.
- fairflow: Biblioteca para abstraer los operadores de Airflow con piezas funcionales que transforman los datos de un operador a otro.
- airflow-maintenance-dags: Clairvoyant tiene un repositorio de DAG de Airflow que operan en el propio Airflow, limpiando varios bits del almacén de metadatos de respaldo.
- test_dags: una solución más completa para las pruebas de integridad de DAG (los primeros Circle of Data's Inferno son los primeros).
- dag-factory: una biblioteca para generar dinámicamente DAG de Apache Airflow a partir de archivos de configuración YAML.
- whirl: desarrollo local iterativo rápido y pruebas de flujos de trabajo de Apache Airflow.
- airflow-code-editor: un complemento para Apache Airflow que le permite editar DAG en el navegador.
- Pylint-Airflow: un complemento de Pylint para el análisis de código estático en código Airflow.
- afctl: una herramienta CLI que incluye todo lo necesario para crear, gestionar e implementar proyectos de flujo de aire de forma más rápida y fluida.
- Visor de dependencias de Dag: un complemento que crea una vista para visualizar las dependencias entre los DAG de Airflow
- Complemento Airflow ECR: complemento para actualizar el token de inicio de sesión de AWS ECR a intervalos regulares. Esto es útil cuando DockerOperator necesita extraer imágenes alojadas en ECR.
- AirflowK8sDebugger: una biblioteca para generar plantillas yaml de pod k8s desde un dag de Airflow utilizando KubernetesPodOperator.
- Oozie to Airflow: una herramienta para convertir fácilmente entre flujos de trabajo de Apache Oozie y flujos de trabajo de Apache Airflow.
- Airflow Ditto: un marco extensible para realizar transformaciones en un DAG Airflow y convertirlo en otro DAG que sea isomórfico de flujo con el DAG original, para poder ejecutarlo en diferentes entornos (por ejemplo, en diferentes nubes o incluso en diferentes marcos de contenedores). Apache Spark en YARN frente a Kubernetes). Viene con soporte listo para usar para transformaciones de EMR a HDInsight-DAG.
- gusty: cree un DAG utilizando cualquier cantidad de archivos YAML, Python, Jupyter Notebook o R Markdown que representen tareas individuales en el DAG. Gusty también configura dependencias, DAG y grupos de tareas, ofrece soporte para sus operadores locales y más. Una demostración completamente en contenedores está disponible aquí.
- Meltano: herramienta ELT de código abierto, autohospedada, basada en CLI, depurable y extensible que adopta Singer para extracción y carga, aprovecha dbt para transformación y se integra con Airflow para orquestación.
- Comprobaciones DAG: las comprobaciones dag consisten en comprobaciones que pueden ayudarle a mantener su instancia de Apache Airflow.
- Complemento Airflow DVC: complemento para el sistema de control de versiones de código abierto para ciencia de datos y canalizaciones de aprendizaje automático: DVC.
- Airflow Vars: una CLI para la gestión de variables, creada para CD-Pipelines con el fin de permitir una gestión de variables sólida y segura.
- airflow-priority: etiquetas de prioridad (P1, P2, etc.) para DAG de flujo de aire con alertas automáticas para Datadog, New Relic, Slack, Discord y más
- airflow-config: sistema de configuración basado en Pydantic/Hydra para argumentos DAG y Task
- airflow-supervisor: integración de supervisor fácil de usar para DAG de funcionamiento prolongado o "siempre activos"
Reuniones
- Encuentro de flujo de aire Apache en Ámsterdam
- Encuentro de flujo de aire Apache de Bangalore
- Reunión de flujo de aire Apache en el Área de la Bahía
- Reunión de flujo de aire Apache en Londres
- Encuentro de flujo de aire Apache en Melbourne
- Encuentro de flujo de aire Apache en la ciudad de Nueva York
- Reunión de flujo de aire Apache de París
- Reunión de flujo de aire de Portland Apache
- Encuentro de flujo de aire Apache en Tokio
- Encuentro de flujo de aire Apache en Varsovia
Proveedores comerciales de flujo de aire como servicio
- Google Cloud Composer: Google Cloud Composer es un servicio administrado creado sobre Google Cloud y Airflow.
- Qubole: Qubole es conocida principalmente como una empresa de servicio y soporte para Apache Hive, pero también proporciona Airflow como componente de su plataforma.
- Astronomer.io: Astronomer ofrece soluciones completas de ciclo de vida ETL y parece estar completamente centrado en ofrecer productos basados en Airflow.
- AWS MWAA: Amazon Managed Workflows for Apache Airflow (MWAA) es un servicio de orquestación administrado para Apache Airflow que facilita la configuración y operación de canalizaciones de datos de un extremo a otro en la nube a escala.
Recursos de Cloud Composer
Esta sección contiene artículos que se aplican a Cloud Composer, un servicio creado por Google Cloud basado en Apache Airflow. Aquí se describen trucos y soluciones que están destinados a Cloud Composer, pero que pueden ser aplicables a Vanilla Airflow.
- Habilitación del escalado automático en Google Cloud Composer: potencie su implementación de Cloud Composer mientras ahorra algunos costos durante los períodos de inactividad.
- Escale su entorno Composer junto con su negocio: la arquitectura Celery Executor y formas de garantizar un alto rendimiento del programador.
- pianka.sh: falta un comando en la herramienta gcloud. Esta herramienta facilita algunas tareas administrativas.
- La forma más inteligente de escalar con Airflow Scheduler de Composer en GKE: Roy Berkowitz analiza el uso más eficaz de los nodos en el servicio Cloud Composer.
- Mejor juntos: orquestando sus canalizaciones de Data Fusion con Cloud Composer: Rachael Deacon-Smith proporciona una descripción general del operador para el caso de uso de Datafusion en Cloud Composer.
Recursos no ingleses
- Documentación de Airflow-Chino - (??Chino) Apachecn ha traducido la documentación oficial de Airflow.
- Gestion de Tâches avec Apache Airflow - (?? Francés) Nicolas Crocfer - Descripción general de Airflow, conceptos básicos y cómo escribir y activar un DAG.
- Airflowはすごいぞ!100行未満で本格的なデータパイプライン - (??Japonés) Hank Ehly ofrece una introducción completa a los conceptos principales de Airflow y demuestra cómo crear una canalización de datos en menos de 100 líneas de código.
- apache airflow 複数worker構成のalpine版docker imageを作った - (??Japonés) Akio Ohta recorre su imagen de Docker para implementar un sistema Airflow basado en Alpine.
- AirflowのタスクログをS3に保存する方法 - (??Japonés) Hank Ehly muestra paso a paso cómo configurar el envío de registros de tareas a AWS S3.
- 【徹底解説】Airflow Fluentd Elasticsearch Docker の連携方法 - (??Japonés) Hank Ehly describe cómo manejar los registros de tareas de los trabajadores con Fluentd, Elasticsearch y Docker.
- Apache Airflow – Kaikki Mitä Meillä On, Lähtee Dageista - (??Finlandés) Descripción general de Olli Iivonen sobre Airflow, sus conceptos y su uso en Solita.
- Airflow - Automatizando seu fluxo de trabalho - (??Portugués) Descripción general de Gilson Filho sobre Airflow, concepto y uso básico.
- Panduan Dasar Apache Airflow - (??Indonesia) Imam Digmi - Descripción general de Airflow, concepto, uso básico con caso de uso.
- Airflow - (??vietnamita) Duyet Le - Descripción general de Airflow, concepto, uso básico con caso de uso.
- Publicaciones del blog chino Airflow de Michael Yang: las publicaciones del blog chino de Michael Yang sobre ingeniería de datos con Apache Airflow concluyen tutoriales básicos y habilidades de desarrollo.
Proyectos de muestra
- Canalizaciones de conjuntos de datos públicos de Google Cloud Platform: arquitectura de canalización de datos nativa de la nube para incorporar conjuntos de datos al programa de conjuntos de datos públicos de Google Cloud.
- DAG del equipo de datos de GitLab: varios DAG se utilizan para crear análisis para la plataforma GitLab.
- implementar-airflow-on-ecs-fargate: implementación en Amazon ECS Fargate. Demuestra varias características y configuraciones, como el ajuste de escala automático de los trabajadores a cero, el registro remoto de S3 y la administración de secretos.
Licencia
En la medida de lo posible según la ley, Jakob Homan ha renunciado a todos los derechos de autor y derechos afines o conexos de esta obra.