Fluxo de ar Apache incrível
Esta é uma lista selecionada de recursos sobre o Apache Airflow. Fique à vontade para contribuir com quaisquer itens que devam ser incluídos. Os itens geralmente são adicionados no topo de cada seção para que mais itens novos sejam apresentados com mais destaque.
Conteúdo
- Links vitais
- Soluções de implantação do Airflow
- Apresentações e tutoriais
- Vídeos do Airflow Summit 2020
- Melhores práticas, lições aprendidas e casos de uso interessantes
- Livros, blogs, podcasts e outros
- Apresentações de slides e vídeos online
- Bibliotecas, ganchos, utilitários
- Encontros
- Provedores comerciais de fluxo de ar como serviço
- Recursos do Cloud Composer
- Recursos não ingleses
Links vitais
- Código-fonte (última versão estável 1.10.12)
- Documentação (também o site oficial)
- Página do Confluence
- Espaço de trabalho folgado
Soluções de implantação do Airflow
- Instalando o Airflow na IBM Cloud – Implementação rápida e fácil na IBM Cloud com IBM Bitnami Charts
- Três maneiras de executar o Airflow no Kubernetes - Tim van de Keer apresenta vários métodos para implantar o Airflow no Kubernetes.
- Implantação gratuita multicamadas do Apache Airflow no Azure – um modelo gratuito do Azure Resource Manager (ARM) da Bitnami que fornece uma solução de um clique para implantação do Airflow no Azure para casos de uso de produção.
- KubernetesExecutor Helm Chart - Um Helm Chart enxuto usando o KubernetesExecutor para uma experiência nativa mais k8s e imagem Docker KubernetesExecutor complementar.
- Gráfico Stable Celery Helm - Gráfico Helm com curadoria no repositório oficial de gráficos estáveis.
- Imagem Docker de Puckel - A imagem Docker bem elaborada de @Puckel_ se tornou a base para muitas instalações do Airflow. Ele é atualizado regularmente e acompanha de perto os lançamentos oficiais do Apache.
- Operador personalizado do Kubernetes para implantação do Airflow - Controlador personalizado do Kubernetes (também chamado de padrão de operador) para implantação do Airflow no Kubernetes.
- airflow-pipeline - contêiner Airflow Docker que vem pré-configurado para Spark e Hadoop. Ele pode ser extraído do docker em
datagovsg/airflow-pipeline
. - aws-airflow-stack - Uma implantação de cluster Airflow baseada em AWS com CeleryExecutor. Implanta após alguns cliques com CloudFormation.
- kube-airflow - Este repositório contém uma imagem do Airflow Docker (que parece ter sido baseada no trabalho de Puckel) e uma definição de serviço Kubernetes. O repositório do mumoshu não foi atualizado recentemente, mas existem vários forks que podem ser baseados em versões mais recentes.
- airflow-on-kubernetes – Um guia sobre todos os recursos, scripts e projetos relevantes relacionados à execução do Airflow no Kubernetes.
- airflow-k8s-executor-on-GKE - Um tutorial detalhado para obter um ambiente de executor kubernetes de fluxo de ar escalonável e de baixa manutenção implantado no Google Kubernetes Engine com helm.
- airflow-cookbook - Livro de receitas do Chef para implantar o Airflow.
- Executando o Airflow no Apache Mesos - Blog que descreve como configurar o Mesos para executar todos os componentes do Airflow.
- Integrando o Apache Airflow com o Apache Ambari - Mykola Mykhalov explica como usar o Apache Ambari para configurar e implantar uma instância do Airflow.
- Plataforma Astronomer - Apache Airflow como serviço no Kubernetes. Para mais informações visite https://www.astronomer.io.
- Imagem Bitnami Airflow Docker - Uma imagem docker segura e atualizada para Airflow mantida pela Bitnami.
- Imagem Docker do Bitnami Airflow Scheduler - Uma imagem docker segura e atualizada para o Airflow Scheduler mantida pela Bitnami.
- Imagem do Docker do Bitnami Airflow Worker - Uma imagem do Docker segura e atualizada para o Airflow Worker mantida pela Bitnami. Uma implantação do docker-compose do CeleryExecutor está disponível aqui.
- Distribuir e implantar o Apache Airflow por meio de arquivos Python PEX - exemplo de repositório com etapas para agrupar, distribuir e implantar o Apache Airflow como arquivos PEX.
- Apresentando KEDA for Airflow - Como usar o sistema escalonador KEDA para permitir o escalonamento automático de trabalhadores de aipo com base em dados armazenados no banco de dados de metadados do Airflow.
- Airflow-Component - instalador leve da arquitetura de referência federada Airflow-Airflow (RabbitMQ) em nós de computação.
Apresentações e tutoriais
- Métricas de monitoramento do Apache Airflow - Uma série de duas partes da maxcotec sobre como você pode utilizar métricas statsd existentes do Airflow para monitorar sua implantação de fluxo de ar no painel Grafana via Prometheus. Aprenda também como criar métricas personalizadas.
- Introdução ao Airflow - Uma série de tutoriais da web da maxcotec para usuários iniciantes e intermediários do Apache Airflow.
- ETL com Apache Airflow para análise de dados em dados de transações. Kimaru Thagana cobre um caso prático de execução de um processo ETL usando Apache Airflow usando dados transacionais, de usuários e de produtos de uma loja de comércio eletrônico fictícia. Os dados são servidos por meio de uma API de frasco.
- Comece a construir pipelines de dados melhores com o Apache Airflow 2020-Oct - Naman Gupta aborda os fundamentos do Airflow e seus conceitos.
- Modelo de repositório Airflow - Um repositório padrão para desenvolvimento local com Airflow, com linting e testes para DAGs e plug-ins válidos. Basta clonar e executar
make start-airflow
para começar! Adicione alguns trabalhos de CI para implantar seu código e pronto. - Como o Apache Airflow distribui trabalhos em trabalhadores do Celery – Uma breve descrição das etapas executadas por uma instância de tarefa, desde o agendamento até o sucesso, em uma arquitetura distribuída.
- Envio remoto do Spark para o YARN em execução no EMR - Azhaguzelvan percorre o envio de trabalhos do Spark para clusters EMR existentes com o Airflow.
- Executar o Airflow no Apache Mesos e seu sucessor, Mesos, Airflow & Docker de Agraj Mangal é uma rápida visão geral da execução do Airflow no Apache Mesos.
- Dustin Stansbury, do Quizlet, escreveu uma série de quatro partes que cobre o que os gerentes de fluxo de trabalho fazem em geral, como o Quizlet escolheu o Airflow, um tour pelos principais conceitos do Airflow e como o Quizlet agora está usando o Airflow na prática:
- Além do CRON: uma introdução aos sistemas de gerenciamento de fluxo de trabalho
- Por que o Quizlet escolheu o Apache Airflow para executar fluxos de trabalho de dados
- Compreendendo os principais conceitos do Apache Airflow
- Como o Quizlet usa o Apache Airflow na prática
- Integrando o Apache Airflow com o Databricks - Embora este tutorial se concentre especificamente nas soluções Spark do Databricks, ele tem uma visão geral razoável dos princípios básicos do Airflow e demonstra como uma solução de terceiros pode ser integrada rapidamente ao Airflow.
- Tutorial do Apache Airflow 2.0 - Este artigo discute os conceitos básicos que estão por trás do Airflow e discute os problemas que ele resolve.
- Testando e depurando o Apache Airflow – Artigo que explica como aplicar testes de unidade, simulação e depuração ao código do Airflow.
- Comece a desenvolver fluxos de trabalho com Apache Airflow - Este breve tutorial introdutório cobre como criar pipeline de dados e fluxo de trabalho de processamento usando DAG, operadores, Sensor, usando Xcoms para comunicação entre operadores.
- Comece com Airflow + Google Cloud Platform + Docker – introdução passo a passo por Jayce Jiang.
- Como desenvolver pipeline de dados no Airflow através de TDD (desenvolvimento orientado a testes) - Aprenda como construir um pipeline de dados de vendas usando TDD passo a passo e no final como configurar um fluxo de trabalho de CI simples usando Github Actions.
Vídeos do Airflow Summit 2020
O primeiro Airflow Summit 2020 foi realizado em julho de 2020. Foi um evento verdadeiramente global e totalmente online, co-organizado por 9 Airflow Meetups de todo o mundo (Melbourne, Tóquio, Bangalore, Varsóvia, Amsterdã, Londres, Nova York, BayArea ).
Apresentou mais de 40 palestras e três workshops. Você pode conferir as gravações das palestras como uma lista de reprodução do YouTube Airflow Summit 2020 ou ver as palestras individuais aqui:
- Palestra: Fluxo de ar antes e agora
- Agendador como serviço - Apache Airflow na EA Digital Platform
- Keynote: Como grandes empresas usam o Airflow para pipelines de ML e ETL
- DAGs de dados com linhagem para diversão e lucro
- Airflow no Kubernetes: conteinerizando seus fluxos de trabalho
- Fluxo de dados com Airflow @ PayPal
- Fluxos de trabalho de dados democratizados em grande escala
- Migrando jobs do Spark baseados no Airflow para o Kubernetes: a maneira nativa
- Palestra: Futuro do fluxo de ar
- Execute Airflow DAGs de maneira segura
- Keynote: Tornando o Airflow um projeto sustentável por meio de D&I
- Airflow CI/CD: Github para Cloud Composer (com segurança)
- Superconjunto avançado do Apache para engenheiros de dados
- Demonstração: Reduzindo as linhas, um editor visual DAG
- AIP-31: Definição DAG funcional de fluxo de ar
- Condução autônoma com Airflow
- Do cron ao Airflow no Kubernetes: uma história de startup
- Alcançando a observabilidade do fluxo de ar
- Aprendizado de máquina com Apache Airflow
- Airflow: um personagem fera no mundo dos jogos
- Dependência eficaz entre DAG
- O que o código aberto nos ensinou sobre negócios
- Hierarquia de necessidades de engenharia de dados
- Construindo pipelines ELT reutilizáveis e confiáveis (uma abordagem padronizada)
- Testando fluxos de trabalho do Airflow – garantindo que seus DAGs funcionem antes de entrar em produção
- Adicionando um executor ao Airflow: uma exceção de estouro de contribuidor
- Migração para provedores de backport do Airflow
- Do Zero ao Airflow: inicializando uma plataforma de ML
- Airflow é a combinação perfeita em nosso pipeline de análise
- Airflow na Société Générale: uma solução de orquestração de código aberto em um ambiente bancário
- Airflow como a próxima geração de sistema de fluxo de trabalho no Pinterest
- Melhorando a experiência do usuário do Airflow
- Ensinando novos truques a um antigo DAG
- Pergunte-me qualquer coisa com membros do Airflow
- Usando o Airflow para acelerar o desenvolvimento de ferramentas com uso intensivo de dados
- Pipelines em pipelines: fluxos de trabalho ágeis de CI/CD para Airflow DAGs
- Imagem Docker de produção para Apache Airflow
- Fluxo de ar como uma ferramenta ETL elástica
- Como raciocinamos sobre a confiabilidade do nosso pipeline de dados no Wrike
- Alcançando a observabilidade do Airflow com Databand
- Do S3 ao BigQuery: como um usuário iniciante do Airflow implementou com sucesso um pipeline de dados
Melhores práticas, lições aprendidas e casos de uso interessantes
- Como usar melhor o DuckDB com Apache Airflow - Dicas sobre como integrar o DuckDB aos trabalhos do Airflow.
- Gerenciamento de pacotes Airflow Dag Python - Gerenciar dependências de pacotes python em mais de 100 dags pode se tornar doloroso. É difícil controlar quais pacotes são usados por qual dag e difícil de limpar durante a remoção/atualização do DAG. Saiba como KubernetesPodOperator e DockerOperator podem corrigir isso.
- Airflow Dag Management & Versioning - Gerencie com eficiência o processo de lançamento de DAGs usando submódulos Git
- Teste no Airflow Parte 2 - Chandu Kavar e Sarang Shinde explicaram os testes de integração e os testes de pipeline ponta a ponta.
- Atualizando e dimensionando o fluxo de ar na Robinhood - Abishek Ray descreve como Robinhood abordou a atualização de seu fluxo de ar de produção enquanto minimizava o tempo de inatividade.
- Estamos todos usando o Airflow de maneira errada e como corrigi-lo - Jessica Laughlin, da Bluecore, compartilha três problemas de engenharia associados ao design do Airflow e como resolvê-los usando o KubernetesPodOperator em dois padrões de design.
- Introdução ao Data Lineage - Germain Tanguy do Dailymotion compartilha um protótipo de linhagem de dados integrado ao Apache Airflow.
- Colaboração entre engenheiros de dados, analistas de dados e cientistas de dados - Germain Tanguy, do Dailymotion, compartilha como liberar com eficiência em produção por meio da colaboração com o Apache Airflow.
- Usando o Docker Operator do Apache Airflow com o Container Repository da Amazon - Brian Campbell da Lucid tem dicas para integrar o serviço ECR da AWS com o DockerOperator do Airflow.
- Airflow: dicas, truques e práticas recomendadas menos conhecidas - Kaxil Naik explicou dicas e práticas recomendadas menos conhecidas, mas muito úteis, sobre o uso do Airflow.
- camada limite:Fluxos de trabalho de fluxo de ar declarativos - Kevin McHale explicou a camada limite do projeto de código aberto que gera dag de fluxo de ar com fluxos de trabalho declarativos.
- Teste no Airflow Parte 1 - Chandu Kavar explicou diferentes categorias de testes no Airflow. Inclui testes de validação DAG, testes de definição DAG e testes unitários.
- Melhorando a segurança da interface do usuário do Airflow - Joy Gao, da WePay, analisa a necessidade de controles de acesso baseados em funções (RBAC) e como ela os introduziu no Airflow.
- Como criar um fluxo de trabalho no Apache Airflow para rastrear surtos de doenças na Índia - Vinayak Mehta detalha como o SocialCops usa o Airflow para vasculhar o Ministério da Saúde e Assuntos da Família da Índia para gerar dados derivados sobre possíveis surtos de doenças.
- Fluxo de ar, engenharia de metadados e uma plataforma de dados para a maior democracia do mundo - Vinayak Mehta fala sobre a identificação de padrões de engenharia de dados (engenharia de metadados) para automatizar a geração de DAG e como isso ajudou o SocialCops a impulsionar a DISHA, uma plataforma nacional de dados onde deputados indianos e Os MLAs monitorizam o progresso de 42 regimes a nível nacional.
- Lições aprendidas durante o Airflow e o Airflow Parte 2: Lições aprendidas - Nehil Jain escreveu uma série de duas partes que cobre o valor dos agendadores de fluxo de trabalho, algumas práticas recomendadas e armadilhas que ele encontrou ao trabalhar com o Airflow. O segundo artigo em particular inclui muitas dicas de produção.
- Por que Robinhood usa Airflow - Vineet Goel explica por que a plataforma de negociação financeira Robinhood escolheu o Airflow em vez de agendadores de trabalho alternativos.
- O que aprendemos ao migrar do Cron para o Airflow - Katie Macias descreve a jornada da engenharia de dados da VideoAmp do cron para o Airflow.
- Nos bastidores: Construindo o AIR na Qubole - Sreenath Kamath e Rajat Venkatesh escrevem sobre a construção da plataforma de descoberta de dados, insights e recomendações da Qubole no Airflow.
- Fluxo de ar: Por que nada está funcionando? - O SubDagOperator do TL;DR Airflow causa impasses por Jessica Laughlin - Mergulhe fundo na solução de problemas de um Airflow DAG problemático com boas dicas sobre como diagnosticar problemas.
- Apache Airflow como agendador externo para sistemas distribuídos - Arunkumar sugere usar o Airflow como um agendador externo simples para um sistema distribuído.
- Como o Sift treina milhares de modelos usando o Apache Airflow – Resumo da estratégia de implantação da Sift Science para seus pipelines de modelo de aprendizado de máquina.
- Apache Airflow em Pandora - Ace Haidrey discute por que Pandora escolheu o Airflow e fornece uma análise detalhada de sua implantação e da infraestrutura por trás dela.
- Lições de Airflow da frente de engenharia de dados em Chicago - Alison Stanton fornece uma lista de dicas para evitar pegadinhas em trabalhos de Airflow.
- Inferno de dados: 7 círculos de teste de dados Inferno com Airflow - A equipe de análise avançada de banco de atacado do ING detalha como eles testam seus DAGs Airflow antes da implantação.
- Teste de dados com repositório Airflow
- Verificadores de qualidade de dados - Antoine Augusti descreve a estrutura que drivy construiu sobre o Airflow para testar seus conjuntos de dados quanto à integridade, consistência, atualidade, exclusividade, validade e precisão.
- Construindo o data warehouse da WePay usando BigQuery e Airflow - O inestimável Chris Riccomini descreve como a WePay, uma das primeiras a adotar o Airflow, se integrou ao seu ambiente Google Cloud Compute.
- Usando o Apache Airflow para criar infraestrutura de dados no setor público - apesar do tom de vendas infelizmente muito pesado, esta postagem do blog descreve como o ARGO Labs, uma organização de dados sem fins lucrativos, utiliza o Airflow para ETLing em dados do setor público.
- ETL com fluxo de ar - princípios básicos de ETL e vários exemplos completos baseados em docker, incluindo Kimball, Data Vault on Hive e alguns exemplos mais simples.
- Como agregar dados para BigQuery usando Apache Airflow – Exemplo de como usar Airflow com Google BigQuery para alimentar um painel do Data Studio.
- Produzindo ML com fluxos de trabalho no Twitter - postagem detalhada sobre por que e como o Twitter usa o Airflow para fluxos de trabalho de ML, incluindo a inclusão de operadores personalizados e uma IU personalizada incorporada na interface da web do Airflow.
- Executando o Apache Airflow no Lyft - fornece uma visão geral de como o Lyft opera o Apache Airflow na produção (monitoramento, personalização, etc.).
- Implantando o Apache Airflow no Azure para construir e executar pipelines de dados – fala sobre a execução do Airflow no Azure.
- O Zen do Python e o Apache Airflow - Postagem no blog sobre como o Zen do Python pode ser aplicado ao código do Airflow.
- Protegendo a interface do usuário do Apache Airflow COM acesso de nível DAG - Postagem no blog sobre o acesso de nível DAG do Airflow e como o Lyft o usa.
- Atualizando o Airflow com tempo de inatividade zero – um artigo detalhado sobre como implantar o Airflow com tempo de inatividade zero.
- Construindo uma plataforma de pipeline ETL em nível de produção usando Apache Airflow - Esta postagem descreve como a equipe de gerenciamento de sistema da Cerner usa o Airflow.
- Fluxo de ar mínimo no Kubernetes (Local, EKS, AKS) - Um artigo sobre a implantação do Airflow no Kubernetes local, AWS EKS e Azure AKS com configuração mínima.
- Dividindo o monorepo Airflow DAG - Esta postagem descreve como oferecer suporte ao gerenciamento de DAGs Airflow de vários repositórios git por meio do S3.
- Melhorando o desempenho do Apache Airflow Scheduler - A história de uma aventura que permitiu ao Databand acelerar o tempo de análise do DAG em 10 vezes
- Como a SSENSE está usando o Apache Airflow para fazer a linhagem de dados na AWS - Explorando os temas fundamentais de arquitetura e governança de um data lake na AWS usando o Apache Arflow.
- Monitorando o Airflow com Prometheus, StatsD e Grafana - Um guia sobre como configurar painéis operacionais para cluster de produção por Databand e obter visibilidade de alto nível no Airflow.
- Orquestração de tarefas complexas no Hurb com Apache Airflow - Esta postagem mostra como o Hurb usa o Apache Airflow para orquestrar tarefas complexas e como ele aproveita a criação dinâmica de DAG para melhorar a velocidade de desenvolvimento.
- Automatizando a exportação de dados do CrateDB para o S3 com o Apache Airflow Um tutorial sobre como automatizar consultas recorrentes no CrateDB com o Apache Airflow, como a exportação periódica de dados para o Amazon S3.
- Implementação de política de retenção de dados com CrateDB e Apache Airflow Um tutorial passo a passo sobre como implementar uma política eficaz de retenção de dados com CrateDB e Apache Airflow.
- Ingestão de dados de táxi de Nova York do S3 no CrateDB – descreve como construir um pipeline de ingestão de banco de dados no Airflow carregando arquivos CSV do S3 no CrateDB.
Livros, blogs, podcasts e outros
- Data Pipelines com Apache Airflow - Um livro de Manning (acesso antecipado em setembro de 2019) no Airflow.
- The Airflow Podcast - Um podcast semirregular discutindo tudo sobre Airflow.
- Maxime Beauchemin - o blog de mídia de Maxime que fornece informações sobre a filosofia por trás do Apache Airflow.
- Robert Chang - Postagens de blog sobre engenharia de dados com Apache Airflow, explica o porquê e tem exemplos em código.
- Manipulando logs do Airflow com o Kubernetes Executor – uma postagem de blog que descreve como você pode configurar o log S3 remoto ao usar o KubernetesExecutor, sem criar uma infraestrutura complexa.
- Airflow 2.0: criação de DAG redesenhada - postagem no blog sobre novas maneiras de escrever DAGs no Airflow 2.0.
- Provedores do Airflow 2.0 – Postagem no blog sobre pacotes de provedores no Airflow 2.0.
Apresentações de slides e vídeos online
- 2020-fevereiro: Apache Airflow @ Umuzi.org - Sheena O'Connell discute como o bootcamp de tecnologia baseado na África do Sul Umuzi usa o Airflow.
- Tutoriais do Apache Airflow no YouTube - Marc Lamberti criou uma série de tutoriais no YouTube cobrindo muitos aspectos dos conceitos, configuração e implantação do Airflow.
- Padrões avançados de engenharia de dados com Apache Airflow - Vídeo da palestra de Maxime Beauchemin que apresenta brevemente o Airflow e, em seguida, aborda casos de uso mais avançados, incluindo consultas SQL de autoatendimento, construção de estruturas de métricas de teste A/B e extração de recursos de aprendizado de máquina, tudo por meio do Airflow. Os slides estão disponíveis separadamente aqui.
- Pipelines de dados modernos com Apache Airflow - Uma palestra proferida por Taylor Edmiston e Andy Cooper do Astronomer.io na Momentum Dev Con 2018 sobre como começar a usar o Airflow, componentes personalizados, exemplos de DAGs e o Astronomer Airflow CLI.
- Construindo melhores pipelines de dados usando Apache Airflow – Slides da palestra de Sid Anand no QCon 18 com uma visão geral completa do Airflow e sua arquitetura.
- Airflow e Spark Streaming no Astronomer - Como o Astronomer usa DAGs dinâmicos para executar trabalhos de Spark Streaming com Airflow.
- Apache Airflow na nuvem: orquestrando programaticamente cargas de trabalho com Python - Slides da palestra de Kaxil Naik e Satyasheel na PyData London 18 apresentando os conceitos básicos do Airflow e como orquestrar cargas de trabalho no Google Cloud Platform (GCP).
- Desenvolvendo fluxos de trabalho elegantes em código Python com Apache Airflow - Michał Karzyński da Europython fornece uma breve introdução aos conceitos do Airflow, incluindo a função de gerentes de fluxo de trabalho, DAGs e operadores. O link inclui vídeo e slides.
- Gerenciamento de pipeline de dados - Ben Goldberg explica no Chicago Kubernetes Meetup como o SpotHero usa o Airflow. Além disso, Ben tem uma apresentação de slides muito completa de como o Airflow funciona no Kubernetes.
- Como aprendi a viajar no tempo, ou pipeline de dados e agendamento com Airflow - Apresentação abrangente de Laura Lorenz sobre por que o Airflow é necessário e como o Industry Dive o utiliza.
- Introdução ao Apache Airflow - Data Day Seattle 2016 - Sid Anand dá uma introdução completa ao Airflow e como ele foi usado na Agari.
- Operando pipeline de dados com Airflow - Airflow Meetup Abril de 2018 - Ananth Packkildurai fala sobre escalonamento do Airflow Local Executor e práticas recomendadas para operar pipeline de dados no Slack.
- Apache Airflow na WePay - Chris Riccomini discute por que a WePay escolheu o Airflow e fornece uma análise detalhada de sua implantação e da infraestrutura por trás dela.
- Pipelining de dados elegante com Apache Airflow - Palestras de Bolke de Bruin e Fokko Driesprong no PyData Amsterdam 2018 sobre metodologias que fornecem clareza em ETL usando Airflow.
- Airflow @ Lyft - Palestras de Tao Feng no encontro de análise de big data de SF sobre como Lyft monitora a execução do Airflow na produção.
- Pipelines de dados gerenciáveis com Airflow e Kubernetes - Palestra de Jarek Potiuk e Szymon Przedwojski. Uma palestra introdutória sobre Airflow do GDG Warsaw DevFest 2018.
- Migrando fluxos de trabalho do Apache Oozie para o Apache Airflow - Palestra de Szymon Przedwojski do Airflow Bay Area Meetup, junho de 2018, sobre a ferramenta de migração Oozie para Airflow.
- Construindo data lakes com Apache Airflow - Palestra de Bas Harenslak e Julian de Ruiter no encontro Amsterdam Apache Airflow de setembro de 2018 sobre a construção de data lakes com Apache Airflow como o spider na web gerenciando todos os fluxos de dados.
- Primeiro Apache Airflow Meetup em Varsóvia - Gravação transmitida ao vivo do primeiro Apache Airflow Meetup em Varsóvia em outubro de 2019.
- O que está por vir no Apache Airflow 2.0 - palestra conjunta de Ash Berlin-Taylor, Kaxil Naik, Jarek Potiuk, Kamil Breguła, Daniel Imbermann e Tomek Urbaszek no Online NYC Meetup, 13 de maio de 2020
- Airflow Breeze - Ambiente de desenvolvimento e teste para Apache Airflow - Screencast mostrando como usar o ambiente Breeze por Jarek Potiuk.
Bibliotecas, ganchos, utilitários
- Domino - Domino é uma plataforma de interface gráfica de usuário de código aberto para a criação de dados e fluxos de trabalho de aprendizado de máquina (DAGs) com ações de arrastar e soltar visualmente intuitivas e sem código. É também um padrão para publicar e compartilhar seu código Python para que possa ser usado automaticamente por qualquer pessoa, diretamente na GUI.
- Airflow-Helper - configurando variáveis, conexões e pools de fluxo de ar a partir de um arquivo de configuração YAML.
- AirFly - gera automaticamente o dag.py do Airflow em tempo real.
- DEAfrica Airflow - Bibliotecas Airflow usadas pela Digital Earth Africa, um esforço humanitário para utilizar imagens de satélite da África.
- Plugins Airflow - Coleção central de repositórios de vários plug-ins para Airflow, incluindo mailchimp, trello, sftp, GitHub, etc.
- fileflow - Coleção de módulos para suportar grandes transferências de dados entre operadores do Airflow por meio de sistema de arquivos local ou S3. Isso aborda uma lacuna onde os dados são muito grandes para XCOMs, mas muito pequenos ou inconvenientes para serem carregados diretamente no operador. Construído pela Industry Dive.
- fairflow - Biblioteca para abstrair os Operadores do Airflow com peças funcionais que transformam os dados de um operador para outro.
- airflow-maintenance-dags - O Clairvoyant possui um repositório de DAGs do Airflow que operam no próprio Airflow, limpando vários bits do armazenamento de metadados de apoio.
- test_dags - uma solução mais completa para testes de integridade de DAG (primeiros Circle of Data's Inferno são os primeiros.
- dag-factory - Uma biblioteca para gerar dinamicamente DAGs Apache Airflow a partir de arquivos de configuração YAML.
- turbilhão - Desenvolvimento e teste locais iterativos rápidos de fluxos de trabalho do Apache Airflow.
- airflow-code-editor - Um plugin para Apache Airflow que permite editar DAGs no navegador.
- Pylint-Airflow - Um plugin Pylint para análise de código estático no código Airflow.
- afctl – Uma ferramenta CLI que inclui tudo o que é necessário para criar, gerenciar e implantar projetos de fluxo de ar de maneira mais rápida e fácil.
- Visualizador de dependências de Dag - um plug-in que cria uma visualização para visualizar dependências entre os DAGs do Airflow
- Plug-in Airflow ECR - Plug-in para atualizar o token de login do AWS ECR em intervalos regulares. Isso é útil quando o DockerOperator precisa extrair imagens hospedadas no ECR.
- AirflowK8sDebugger - Uma biblioteca para gerar modelos yaml de pod k8s a partir de um dag Airflow usando o KubernetesPodOperator.
- Oozie to Airflow - Uma ferramenta para converter facilmente entre fluxos de trabalho Apache Oozie e fluxos de trabalho Apache Airflow.
- Airflow Ditto - Uma estrutura extensível para fazer transformações em um DAG Airflow e convertê-lo em outro DAG que seja isomórfico de fluxo com o DAG original, para poder executá-lo em ambientes diferentes (por exemplo, em nuvens diferentes, ou mesmo em estruturas de contêiner diferentes - Apache Spark no YARN vs Kubernetes). Vem com suporte pronto para uso para transformações EMR para HDInsight-DAG.
- gusty - Crie um DAG usando qualquer número de arquivos YAML, Python, Jupyter Notebook ou R Markdown que representam tarefas individuais no DAG. gusty também configura dependências, DAGs e TaskGroups, oferece suporte para seus operadores locais e muito mais. Uma demonstração totalmente conteinerizada está disponível aqui.
- Meltano - ferramenta ELT de código aberto, auto-hospedada, CLI-first, depurável e extensível que adota o Singer para extração e carregamento, aproveita o dbt para transformação e se integra ao Airflow para orquestração.
- Verificações DAG - As verificações dag consistem em verificações que podem ajudá-lo a manter sua instância do Apache Airflow.
- Plug-in Airflow DVC - Plug-in para sistema de controle de versão de código aberto para ciência de dados e pipelines de aprendizado de máquina - DVC.
- Airflow Vars - Uma CLI para gerenciamento de variáveis, criada para CD-Pipelines para permitir um gerenciamento robusto e seguro de variáveis.
- airflow-priority - Tags de prioridade (P1, P2, etc) para Airflow DAGs com alertas automatizados para Datadog, New Relic, Slack, Discord e muito mais
- airflow-config - Sistema de configuração baseado em Pydantic / Hydra para argumentos DAG e Task
- airflow-supervisor - Integração de supervisor fácil de usar para DAGs de longa duração ou "sempre ligados"
Encontros
- Encontro Apache Airflow em Amsterdã
- Encontro do Apache Airflow em Bangalore
- Encontro Apache Airflow da Bay Area
- Encontro Apache Airflow em Londres
- Encontro do Apache Airflow em Melbourne
- Encontro Apache Airflow em Nova York
- Encontro Paris Apache Airflow
- Encontro Portland Apache Airflow
- Encontro do Apache Airflow em Tóquio
- Encontro Apache Airflow em Varsóvia
Provedores comerciais de fluxo de ar como serviço
- Google Cloud Composer - Google Cloud Composer é um serviço gerenciado desenvolvido com base no Google Cloud e no Airflow.
- Qubole - Qubole é conhecida principalmente como uma empresa de serviços e suporte para Apache Hive, mas também fornece Airflow como um componente de sua plataforma.
- Astronomer.io - Astronomer fornece soluções completas de ciclo de vida de ETL e parece estar totalmente focado em fornecer produtos baseados em Airflow.
- AWS MWAA - Amazon Managed Workflows for Apache Airflow (MWAA) é um serviço de orquestração gerenciado para Apache Airflow que facilita a configuração e operação de pipelines de dados de ponta a ponta na nuvem em escala.
Recursos do Cloud Composer
Esta seção contém artigos que se aplicam ao Cloud Composer, um serviço criado pelo Google Cloud com base no Apache Airflow. Aqui são descritos truques e soluções destinados ao Cloud Composer, mas que podem ser aplicáveis ao Vanilla Airflow.
- Ativando o escalonamento automático no Google Cloud Composer: aprimore sua implantação do Cloud Composer e economize alguns custos durante períodos de inatividade.
- Dimensione seu ambiente Composer junto com seu negócio - A arquitetura do Celery Executor e formas de garantir alto desempenho do agendador.
- pianoka.sh - Comando ausente na ferramenta gcloud. Esta ferramenta facilita algumas tarefas administrativas.
- A maneira mais inteligente de escalar com o Airflow Scheduler do Composer no GKE - Roy Berkowitz discute o uso mais eficaz de nós no serviço Cloud Composer.
- Melhor juntos: orquestrando seus pipelines de Data Fusion com o Cloud Composer - Rachael Deacon-Smith fornece uma visão geral do operador para o caso de uso do Datafusion no Cloud Composer.
Recursos não ingleses
- Documentação do Airflow-Chinês - (??Chinês) Apachecn traduziu a documentação oficial do Airflow.
- Gestion de Tâches avec Apache Airflow - (??Francês) Nicolas Crocfer - Visão geral do Airflow, conceitos básicos e como escrever e acionar um DAG.
- Airflowはすごいぞ!100行未満で本格的なデータパイプライン - (??Japonês) Hank Ehly dá uma introdução abrangente aos principais conceitos do Airflow e demonstra como criar um pipeline de dados em menos de 100 linhas de código.
- apache airflow 複数worker構成のalpine版docker imageを作った - (??Japonês) Akio Ohta percorre sua imagem Docker para implantar um sistema Airflow baseado em Alpine.
- AirflowのタスクログをS3に保存する方法 - (??Japonês) Hank Ehly mostra passo a passo como configurar o envio de logs de tarefas para AWS S3.
- 【徹底解説】Airflow Fluentd Elasticsearch Docker の連携方法 - (??Japonês) Hank Ehly descreve como lidar com logs de tarefas de trabalho com Fluentd, Elasticsearch e Docker.
- Apache Airflow – Kaikki Mitä Meillä On, Lähtee Dageista - (??Finlandês) Visão geral de Olli Iivonen sobre Airflow, conceitos e uso do Airflow em Solita.
- Airflow - Automatizando seu fluxo de trabalho - (??Português) Visão geral de Gilson Filho sobre Airflow, conceito e uso básico.
- Panduan Dasar Apache Airflow - (??Indonésio) Imam Digmi - Visão geral do Airflow, conceito, uso básico com caso de uso.
- Airflow - (??Vietnamita) Duyet Le - Visão geral do Airflow, conceito, uso básico com caso de uso.
- Postagens do blog chinês Airflow de Michael Yang - postagens do blog chinês de Michael Yang sobre engenharia de dados com Apache Airflow, concluem tutoriais básicos e habilidades de devops.
Exemplos de projetos
- Pipelines de conjuntos de dados públicos do Google Cloud Platform: arquitetura de pipeline de dados nativa da nuvem para integração de conjuntos de dados ao programa de conjuntos de dados públicos do Google Cloud.
- DAGs da equipe de dados GitLab – Vários DAGs usados para construir análises para a plataforma GitLab.
- implantar-airflow-on-ecs-fargate – Implante no Amazon ECS Fargate. Demonstra vários recursos e configurações, como escalonamento automático de trabalhadores para zero, registro remoto do S3 e gerenciamento de segredos.
Licença
Na medida do possível por lei, Jakob Homan renunciou a todos os direitos autorais e direitos relacionados ou conexos a esta obra.