Потрясающий воздушный поток Apache
Это тщательно подобранный список ресурсов об Apache Airflow. Пожалуйста, не стесняйтесь вносить любые элементы, которые должны быть включены. Товары обычно добавляются вверху каждого раздела, чтобы более свежие товары были представлены на более видном месте.
Содержание
- Жизненно важные ссылки
- Решения для развертывания воздушного потока
- Введение и учебные пособия
- Видео Саммита Airflow 2020
- Лучшие практики, извлеченные уроки и интересные примеры использования
- Книги, блоги, подкасты и т. д.
- Слайд-презентации и онлайн-видео
- Библиотеки, Хуки, Утилиты
- Встречи
- Коммерческие поставщики услуг Airflow как услуга
- Ресурсы Cloud Composer
- Неанглоязычные ресурсы
Жизненно важные ссылки
- Исходный код (последняя стабильная версия 1.10.12)
- Документация (также официальный сайт)
- Страница слияния
- Слабое рабочее пространство
Решения для развертывания воздушного потока
- Установка Airflow в IBM Cloud — быстрое и простое развертывание в IBM Cloud с помощью IBM Bitnami Charts
- Три способа запуска Airflow в Kubernetes. Тим ван де Кир рассказывает о нескольких методах развертывания Airflow в Kubernetes.
- Многоуровневое бесплатное развертывание Apache Airflow в Azure — бесплатный шаблон Azure Resource Manager (ARM) от Bitnami, предоставляющий решение одним щелчком мыши для развертывания Airflow в Azure для производственных сценариев использования.
- KubernetesExecutor Helm Chart — компактная Helm-диаграмма, использующая KubernetesExecutor для более удобного использования k8s и дополнительный образ Docker KubernetesExecutor.
- Stable Celery Helm Chart — кураторская Helm-диаграмма в официальном репозитории стабильных диаграмм.
- Образ Docker от Puckel — тщательно созданный образ Docker от @Puckel_ стал основой для многих установок Airflow. Он регулярно обновляется и внимательно отслеживает официальные выпуски Apache.
- Пользовательский оператор Kubernetes для развертывания Airflow — пользовательский контроллер Kubernetes (также называемый шаблоном оператора) для развертывания Airflow в Kubernetes.
- airflow-pipeline — Docker-контейнер Airflow, предварительно настроенный для Spark и Hadoop. Его можно загрузить в докер
datagovsg/airflow-pipeline
. - aws-airflow-stack — развертывание кластера Airflow на базе AWS с помощью CeleryExecutor. Развертывается после нескольких щелчков мышью с помощью CloudFormation.
- kube-airflow — этот репозиторий содержит как образ Docker Airflow (который, по-видимому, основан на работе Пакеля), так и определение сервиса Kubernetes. Репозиторий mumoshu в последнее время не обновлялся, но существует множество вилок, которые могут быть основаны на более поздних выпусках.
- airflow-on-kubernetes — руководство по всем соответствующим ресурсам, сценариям и проектам, связанным с запуском Airflow в Kubernetes.
- airflow-k8s-executor-on-GKE — подробное руководство по созданию масштабируемой и не требующей особого обслуживания среды исполнения airflow kubernetes, развернутой в Google Kubernetes Engine с помощью helm.
- airflow-cookbook — кулинарная книга шеф-повара для развертывания Airflow.
- Запуск Airflow поверх Apache Mesos — блог, описывающий, как настроить Mesos для запуска всех компонентов Airflow.
- Интеграция Apache Airflow с Apache Ambari. Николай Михайлов демонстрирует использование Apache Ambari для настройки и развертывания экземпляра Airflow.
- Платформа Astronomer — Apache Airflow как услуга в Kubernetes. Для получения дополнительной информации посетите https://www.astronomer.io.
- Образ Docker Bitnami Airflow — безопасный и актуальный образ Docker для Airflow, поддерживаемый Bitnami.
- Образ Docker планировщика воздушного потока Bitnami — безопасный и актуальный образ докера для планировщика воздушного потока, поддерживаемый Bitnami.
- Образ Docker Bitnami Airflow Worker — безопасный и актуальный образ Docker для Airflow Worker, поддерживаемый Bitnami. Развертывание Docker-Compose CeleryExecutor доступно здесь.
- Распространение и развертывание Apache Airflow через файлы PEX Python — пример репозитория с инструкциями по объединению, распространению и развертыванию Apache Airflow в виде файлов PEX.
- Представляем KEDA для Airflow — как использовать систему масштабирования KEDA для автоматического масштабирования рабочих процессов сельдерея на основе данных, хранящихся в базе данных метаданных Airflow.
- Airflow-Component — легкий установщик объединенной эталонной архитектуры Airflow-Airflow (RabbitMQ) на вычислительных узлах.
Введение и учебные пособия
- Метрики мониторинга воздушного потока Apache — серия из двух частей от maxcotec о том, как можно использовать существующие метрики статистики воздушного потока для мониторинга развертывания воздушного потока на панели управления Grafana через Prometheus. Также узнайте, как создавать собственные метрики.
- Введение в Airflow — серия веб-уроков от maxcotec для начинающих и опытных пользователей Apache Airflow.
- ETL с Apache Airflow для анализа данных транзакций. Кимару Тагана описывает практический пример выполнения процесса ETL с использованием Apache Airflow с использованием данных о транзакциях, пользователях и продуктах фиктивного интернет-магазина. Данные передаются через API-интерфейс Flask.
- Начните создавать более эффективные конвейеры данных с помощью Apache Airflow. Октябрь 2020 г. — Наман Гупта рассказывает об основах Airflow и его концепциях.
- Шаблон репозитория Airflow — шаблонный репозиторий для локальной разработки с помощью Airflow, с проверкой и тестированием действительных DAG и плагинов. Просто клонируйте и запустите
make start-airflow
чтобы начать работу! Добавьте несколько заданий CI для развертывания вашего кода, и все готово. - Как Apache Airflow распределяет задания среди работников Celery — краткое описание шагов, выполняемых экземпляром задачи, от планирования до успеха в распределенной архитектуре.
- Удаленная отправка Spark в YARN, работающую на EMR. Ажагусельван рассказывает об отправке заданий Spark в существующие кластеры EMR с помощью Airflow.
- Запуск Airflow поверх Apache Mesos и его продолжения, Mesos, Airflow & Docker от Аграджа Мангала, представляет собой краткий обзор запуска Airflow поверх Apache Mesos.
- Дастин Стэнсбери из Quizlet написал серию из четырех частей, в которой рассказывается о том, чем вообще занимаются менеджеры рабочих процессов, как Quizlet выбрал Airflow, представляет обзор ключевых концепций Airflow и как Quizlet теперь использует Airflow на практике:
- За пределами CRON: введение в системы управления рабочими процессами
- Почему Quizlet выбрал Apache Airflow для выполнения рабочих процессов с данными
- Понимание ключевых концепций Apache Airflow
- Как Quizlet использует Apache Airflow на практике
- Интеграция Apache Airflow с Databricks. Хотя это руководство ориентировано конкретно на решения Databricks Spark, оно содержит разумный обзор основ Airflow и демонстрирует, как стороннее решение может быстро интегрироваться в Airflow.
- Учебное пособие по Apache Airflow 2.0. В этой статье обсуждаются основные концепции, лежащие в основе Airflow, и проблемы, которые он решает.
- Тестирование и отладка Apache Airflow — статья, объясняющая, как применять модульное тестирование, макетирование и отладку к коду Airflow.
- Приступайте к разработке рабочих процессов с помощью Apache Airflow. В этом кратком вводном руководстве рассказывается, как создать конвейер данных и рабочий процесс обработки с использованием DAG, операторов, датчиков и использования Xcoms для связи между операторами.
- Начните работу с Airflow + Google Cloud Platform + Docker — пошаговое введение Джейса Цзяна.
- Как разработать конвейер данных в Airflow через TDD (разработка через тестирование). Узнайте, как шаг за шагом построить конвейер данных о продажах с использованием TDD и, в конечном итоге, как настроить простой рабочий процесс CI с помощью действий Github.
Видео с саммита Airflow 2020
Первый саммит Airflow 2020 состоялся в июле 2020 года. Это было по-настоящему глобальное, полностью онлайн-мероприятие, организованное совместно 9 встречами Airflow Meetup со всего мира (Мельбурн, Токио, Бангалор, Варшава, Амстердам, Лондон, Нью-Йорк, BayArea). ).
На мероприятии было проведено более 40 докладов и три семинара. Вы можете просмотреть записи выступлений в виде плейлиста YouTube Airflow Summit 2020 или посмотреть отдельные выступления здесь:
- Основной доклад: Воздушный поток тогда и сейчас
- Планировщик как услуга — Apache Airflow на цифровой платформе EA
- Основной доклад: Как крупные компании используют Airflow для конвейеров ML и ETL
- Data DAG с происхождением для развлечения и ради прибыли
- Airflow в Kubernetes: контейнеризация рабочих процессов
- Поток данных с помощью Airflow @ PayPal
- Демократизация рабочих процессов с данными в больших масштабах
- Миграция заданий Spark на основе Airflow в Kubernetes — родной способ
- Основной доклад: Будущее воздушного потока
- Запускайте группы обеспечения доступности баз данных Airflow безопасным способом
- Основной доклад: Превращение Airflow в устойчивый проект с помощью D&I
- Airflow CI/CD: Github в Cloud Composer (безопасно)
- Расширенный расширенный набор Apache для инженеров данных
- Демо: Уменьшение строк, визуальный редактор DAG
- AIP-31: Определение функционального DAG воздушного потока
- Автономное вождение с Airflow
- От cron к Airflow в Kubernetes: история стартапа
- Достижение наблюдаемости воздушного потока
- Машинное обучение с Apache Airflow
- Airflow: персонаж-зверь в игровом мире
- Эффективная зависимость между DAG
- Чему открытый исходный код научил нас о бизнесе
- Иерархия потребностей в области обработки данных
- Создание многоразовых и надежных конвейеров ELT (шаблоновый подход)
- Тестирование рабочих процессов Airflow — проверка работоспособности ваших DAG перед запуском в производство
- Добавление исполнителя в Airflow: исключение переполнения участника
- Миграция на поставщиков резервного порта Airflow
- От нуля до Airflow: загрузка платформы машинного обучения
- Airflow идеально подходит для нашего аналитического конвейера
- Airflow в Société Générale: решение для оркестрации с открытым исходным кодом в банковской среде
- Airflow как система рабочего процесса нового поколения в Pinterest
- Улучшение пользовательского опыта Airflow
- Обучение старого DAG новым трюкам
- Спросите меня о чем-нибудь у участников Airflow
- Использование Airflow для ускорения разработки инструментов с интенсивным использованием данных
- Конвейеры на конвейерах: гибкие рабочие процессы CI/CD для групп DAG Airflow
- Рабочий образ Docker для Apache Airflow
- Airflow как эластичный инструмент ETL
- Как мы рассуждаем о надежности нашего конвейера данных в Wrike?
- Достижение наблюдаемости воздушного потока с помощью Databand
- От S3 до BigQuery: как начинающий пользователь Airflow успешно реализовал конвейер данных
Лучшие практики, извлеченные уроки и интересные примеры использования
- Как лучше всего использовать DuckDB с Apache Airflow — советы по интеграции DuckDB в задания Airflow.
- Управление пакетами Airflow Dag Python. Управление зависимостями пакетов Python для более чем 100 файлов может оказаться болезненным. Трудно отслеживать, какие пакеты каким DAG используются, и трудно очистить их во время удаления/обновления DAG. Узнайте, как KubernetesPodOperator и DockerOperator могут это исправить.
- Управление и управление версиями DAG в Airflow. Эффективно управляйте процессом выпуска DAG с помощью подмодулей Git.
- Тестирование в Airflow, часть 2. Чанду Кавар и Саранг Шинде объяснили интеграционные тесты и сквозные конвейерные тесты.
- Модернизация и масштабирование воздушного потока в Robinhood. Абишек Рэй описывает, как компания Robinhood добилась модернизации производственного воздушного потока и минимизировала время простоя.
- Мы все неправильно используем Airflow и как это исправить — Джессика Лафлин из Bluecore рассказывает о трёх инженерных проблемах, связанных с дизайном Airflow, и о том, как их решить с помощью KubernetesPodOperator в двух шаблонах проектирования.
- Начало работы с Data Lineage. Жермен Танги из Dailymotion делится прототипом линии передачи данных, интегрированным в Apache Airflow.
- Сотрудничество инженеров данных, аналитиков данных и ученых, занимающихся данными. Жермен Танги из Dailymotion рассказывает, как эффективно выпускать продукты в производство благодаря сотрудничеству с Apache Airflow.
- Использование Docker-оператора Apache Airflow с репозиторием контейнеров Amazon. Брайан Кэмпбелл из Lucid дает советы по интеграции службы ECR AWS с DockerOperator Airflow.
- Airflow: малоизвестные советы, рекомендации и лучшие практики. Каксил Найк объяснил менее известные, но очень полезные советы и рекомендации по использованию Airflow.
- пограничный слой: Декларативные рабочие процессы воздушного потока. Кевин Макхейл объяснил пограничный слой проекта с открытым исходным кодом, который генерирует данные воздушного потока с помощью декларативных рабочих процессов.
- Тестирование в Airflow. Часть 1. Чанду Кавар объяснил различные категории тестов в Airflow. Он включает в себя тесты проверки DAG, тесты определения DAG и модульные тесты.
- Улучшение безопасности пользовательского интерфейса Airflow. Джой Гао из WePay рассказывает о необходимости управления доступом на основе ролей (RBAC) и о том, как она представила его в Airflow.
- Как создать рабочий процесс в Apache Airflow для отслеживания вспышек заболеваний в Индии - Винаяк Мехта подробно описывает, как SocialCops использует Airflow для сбора данных Министерства здравоохранения и по делам семьи Индии для получения производных данных о возможных вспышках заболеваний.
- Airflow, разработка метаданных и платформа данных для крупнейшей в мире демократии. Винаяк Мехта рассказывает об определении шаблонов разработки данных (инженерии метаданных) для автоматизации создания DAG и о том, как это помогло SocialCops создать DISHA, национальную платформу данных, на которой работают индийские депутаты и ГНД контролируют ход реализации 42 схем национального уровня.
- Уроки, извлеченные при использовании Airflow и Airflow. Часть 2. Извлеченные уроки. Нехил Джайн написал серию из двух частей, в которой рассказывается о ценности планировщиков рабочих процессов, некоторых передовых практиках и подводных камнях, которые он обнаружил при работе с Airflow. Вторая статья, в частности, содержит множество советов по производству.
- Почему Robinhood использует Airflow. Винит Гоэл рассказывает, почему финансовая торговая платформа Robinhood выбрала Airflow вместо альтернативных планировщиков работы.
- Чему мы научились при переходе с Cron на Airflow — Кэти Масиас описывает путь VideoAmp Data Engineering от cron к Airflow.
- Под капотом: создание AIR в Qubole. Шринат Камат и Раджат Венкатеш пишут о создании платформы Qubole для обнаружения данных, анализа и рекомендаций на базе Airflow.
- Воздушный поток: Почему ничего не работает? - TL;DR SubDagOperator Airflow вызывает взаимоблокировки Джессика Лафлин - Подробное описание устранения проблем с проблемным DAG Airflow с полезными советами по диагностике проблем.
- Apache Airflow в качестве внешнего планировщика для распределенных систем. Арункумар предлагает использовать Airflow в качестве простого внешнего планировщика для распределенной системы.
- Как Sift обучает тысячи моделей с помощью Apache Airflow — краткое изложение стратегии развертывания Sift Science своих конвейеров моделей машинного обучения.
- Apache Airflow на Pandora. Эйс Хейдри рассказывает, почему Pandora выбрала Airflow, и предоставляет подробное описание их развертывания и стоящей за ним инфраструктуры.
- Уроки Airflow от отдела обработки данных в Чикаго — Элисон Стэнтон предоставляет список советов, как избежать ошибок при работе с Airflow.
- Ад данных: 7 кругов тестирования данных Ад с Airflow — команда расширенной аналитики оптовых банковских операций в ING подробно описывает, как они подвергают пыткам тестирование своих DAG Airflow перед развертыванием.
- Тестирование данных с помощью репозитория Airflow
- Средства проверки качества данных. Антуан Огюсти описывает структуру, которую drivy построил на базе Airflow для проверки своих наборов данных на полноту, согласованность, своевременность, уникальность, достоверность и точность.
- Создание хранилища данных WePay с использованием BigQuery и Airflow. Бесценный Крис Риккомини описывает, как WePay, один из первых пользователей Airflow, интегрировался в свою среду Google Cloud Compute.
- Использование Apache Airflow для создания инфраструктуры данных в государственном секторе. Несмотря на, к сожалению, очень тяжелый тон продаж, в этой статье в блоге описывается, как ARGO Labs, некоммерческая организация по работе с данными, использует Airflow для ETLing в данных государственного сектора.
- ETL с воздушным потоком — основные принципы ETL и несколько комплексных примеров на основе Docker, включая Kimball, Data Vault на Hive и несколько более простых примеров.
- Как агрегировать данные для BigQuery с помощью Apache Airflow — пример использования Airflow с Google BigQuery для управления информационной панелью Студии данных.
- Производство машинного обучения с помощью рабочих процессов в Twitter. Подробная статья о том, почему и как Twitter использует Airflow для рабочих процессов машинного обучения, включая настраиваемые операторы и настраиваемый пользовательский интерфейс, встроенный в веб-интерфейс Airflow.
- Запуск Apache Airflow в Lyft. Здесь представлен обзор того, как Lyft использует Apache Airflow в производстве (мониторинг, настройка и т. д.).
- Развертывание Apache Airflow в Azure для создания и запуска конвейеров данных. Здесь рассказывается о запуске Airflow в Azure.
- Дзен Python и Apache Airflow — запись в блоге о том, как Дзен Python можно применить к коду Airflow.
- Защита пользовательского интерфейса Apache Airflow с доступом на уровне DAG — сообщение в блоге о доступе к уровню DAG Airflow и о том, как Lyft его использует.
- Обновление Airflow с нулевым временем простоя — подробная статья о том, как развернуть Airflow с нулевым временем простоя.
- Создание конвейерной платформы ETL производственного уровня с использованием Apache Airflow. В этом посте описывается, как группа управления системой в Cerner использует Airflow.
- Минимальный Airflow в Kubernetes (локальный, EKS, AKS) — статья о развертывании Airflow в локальном Kubernetes, AWS EKS и Azure AKS с минимальной настройкой.
- Разрыв монорепозитория Airflow DAG. В этом посте описывается, как поддерживать управление DAG Airflow из нескольких репозиториев git через S3.
- Улучшение производительности планировщика Apache Airflow — история приключения, которое позволило Databand ускорить время анализа DAG в 10 раз
- Как SSENSE использует Apache Airflow для создания Data Lineage на AWS — изучение фундаментальных тем проектирования и управления озером данных на AWS с использованием Apache Arflow.
- Мониторинг воздушного потока с помощью Prometheus, StatsD и Grafana — руководство о том, как настроить операционные панели мониторинга для производственного кластера с помощью Databand и получить высокий уровень прозрачности Airflow.
- Оркестрация сложных задач в Hurb с помощью Apache Airflow. В этом посте показано, как Hurb использует Apache Airflow для координации сложных задач и как он использует динамическое создание DAG для повышения скорости разработки.
- Автоматизация экспорта данных из CrateDB в S3 с помощью Apache Airflow Учебное пособие о том, как автоматизировать повторяющиеся запросы в CrateDB с помощью Apache Airflow, например периодический экспорт данных в Amazon S3.
- Реализация политики хранения данных с помощью CrateDB и Apache Airflow. Пошаговое руководство о том, как реализовать эффективную политику хранения данных с помощью CrateDB и Apache Airflow.
- Прием данных о такси Нью-Йорка из S3 в CrateDB — описывает, как создать конвейер приема базы данных в Airflow путем загрузки файлов CSV из S3 в CrateDB.
Книги, блоги, подкасты и т. д.
- Конвейеры данных с Apache Airflow — книга Мэннинга (ранний доступ, сентябрь 2019 г.) по Airflow.
- Подкаст Airflow — полурегулярный подкаст, посвященный всему, что касается Airflow.
- Максим Бошемен — блог Максима на носителе, который дает представление о философии Apache Airflow.
- Роберт Чанг — сообщения в блоге об инжиниринге данных с помощью Apache Airflow, объясняет почему и приводит примеры в коде.
- Обработка журналов Airflow с помощью Kubernetes Executor — сообщение в блоге, в котором описывается, как настроить удаленное ведение журналов S3 при использовании KubernetesExecutor без создания сложной инфраструктуры.
- Airflow 2.0: обновленный дизайн DAG Authoring — запись в блоге о новых способах написания DAG в Airflow 2.0.
- Поставщики Airflow 2.0 — запись в блоге о пакетах поставщиков в Airflow 2.0.
Слайд-презентации и онлайн-видео
- Февраль 2020 г.: Apache Airflow @ Umuzi.org — Шина О'Коннелл рассказывает, как расположенный в Южной Африке технологический учебный лагерь Umuzi использует Airflow.
- Учебные пособия по Apache Airflow на YouTube. Марк Ламберти создал серию учебных пособий на YouTube, охватывающих многие аспекты концепций, настройки и развертывания Airflow.
- Расширенные шаблоны обработки данных с помощью Apache Airflow — видео выступления Максима Бошемена, в котором кратко знакомится с Airflow, а затем рассматриваются более сложные варианты использования, включая самообслуживаемые SQL-запросы, создание рамок метрик A/B-тестирования и извлечение функций машинного обучения — и все это с помощью Airflow. Слайды доступны отдельно здесь.
- Современные конвейеры данных с Apache Airflow — доклад Тейлора Эдмистона и Энди Купера из Astronomer.io на Momentum Dev Con 2018 о начале работы с Airflow, пользовательскими компонентами, примерами DAG и интерфейсом командной строки Astronomer Airflow.
- Создание более эффективных конвейеров данных с использованием Apache Airflow — слайды из выступления Сида Ананда на QCon 18 с подробным обзором Airflow и его архитектуры.
- Airflow и Spark Streaming в Astronomer — как Astronomer использует динамические группы DAG для запуска заданий Spark Streaming с помощью Airflow.
- Apache Airflow в облаке: программная оркестровка рабочих нагрузок с помощью Python — слайды из выступления Каксила Найка и Сатьяшила на PyData London 18, знакомящие с основами Airflow и способами оркестрации рабочих нагрузок на Google Cloud Platform (GCP).
- Разработка элегантных рабочих процессов в коде Python с помощью Apache Airflow — Михал Каржиньски из Europython дает краткое введение в концепции Airflow, включая роль менеджеров рабочих процессов, групп DAG и операторов. Ссылка включает в себя как видео, так и слайды.
- Управление конвейерами данных. Бен Голдберг рассказывает на встрече Kubernetes в Чикаго, как SpotHero использует Airflow. Кроме того, у Бена есть очень полная демонстрация того, как Airflow работает в Kubernetes.
- Как я научился путешествовать во времени, или конвейеризировать и планировать данные с помощью Airflow — исчерпывающая статья Лоры Лоренц о том, почему Airflow необходим и как его использует Industry Dive.
- Введение в Apache Airflow — День данных в Сиэтле, 2016 г. — Сид Ананд подробно рассказывает об Airflow и о том, как он использовался в Agari.
- Эксплуатация конвейера данных с помощью Airflow — Встреча Airflow, апрель 2018 г. — Анант Паккилдурай рассказывает о масштабировании локального исполнителя воздушного потока и передовых методах управления конвейером данных в Slack.
- Apache Airflow на WePay. Крис Риккомини рассказывает, почему WePay выбрала Airflow, и подробно описывает их развертывание и лежащую в его основе инфраструктуру.
- Элегантная конвейеризация данных с помощью Apache Airflow — доклады Больке де Бруина и Фокко Дриспронга на PyData Amsterdam 2018 о методологиях, которые обеспечивают ясность в ETL с использованием Airflow.
- Airflow @ Lyft — Тао Фэн рассказывает на встрече по аналитике больших данных в Сан-Франциско о том, как Lyft контролирует работу Airflow в производстве.
- Управляемые конвейеры данных с помощью Airflow и Kubernetes — доклад Ярека Потюка и Шимона Пшедвойски. Вступительный доклад об Airflow с GDG Варшава DevFest 2018.
- Миграция рабочих процессов Apache Oozie в Apache Airflow — доклад Шимона Пшедвойского с встречи Airflow Bay Area, июнь 2018 г., об инструменте миграции с Oozie на Airflow.
- Создание озер данных с помощью Apache Airflow. Выступление Баса Харенслака и Джулиана де Рюйтера на встрече Apache Airflow в Амстердаме в сентябре 2018 г. о создании озер данных с помощью Apache Airflow в качестве паука в сети, управляющего всеми потоками данных.
- Первая Варшавская встреча Apache Airflow — прямая трансляция записи первой встречи Apache Airflow в Варшаве в октябре 2019 года.
- Что будет в Apache Airflow 2.0 — совместный доклад Эша Берлина-Тейлора, Каксила Найка, Ярека Потюка, Камила Брегулы, Даниэля Имберманна и Томека Урбашека на онлайн-встрече в Нью-Йорке, 13 мая 2020 г.
- Airflow Breeze — среда разработки и тестирования для Apache Airflow — скринкаст, показывающий, как использовать среду Breeze от Ярека Потюка.
Библиотеки, Хуки, Утилиты
- Domino — Domino — это платформа графического пользовательского интерфейса с открытым исходным кодом для создания данных и рабочих процессов машинного обучения (DAG) с помощью визуальных интуитивно понятных действий перетаскивания без кода. Это также стандарт публикации и совместного использования вашего кода Python, поэтому любой может автоматически использовать его непосредственно в графическом интерфейсе.
- Airflow-Helper — настройка переменных, соединений и пулов воздушного потока из файла конфигурации YAML.
- AirFly — автоматическое создание dag.py Airflow на лету.
- DEAfrica Airflow — библиотеки Airflow, используемые Digital Earth Africa, гуманитарной инициативой по использованию спутниковых изображений Африки.
- Плагины Airflow — центральная коллекция репозиториев различных плагинов для Airflow, включая mailchimp, trello, sftp, GitHub и т. д.
- fileflow — набор модулей для поддержки передачи больших данных между операторами Airflow через локальную файловую систему или S3. Это устраняет пробел, когда данные слишком велики для XCOM, но слишком малы или неудобны для загрузки непосредственно в оператор. Построен компанией Industry Dive.
- fairflow — библиотека для абстрагирования операторов Airflow с помощью функциональных частей, которые преобразуют данные от одного оператора к другому.
- airflow-maintenance-dags — у Clairvoyant есть репозиторий DAG Airflow, который работает на самом Airflow, очищая различные части резервного хранилища метаданных.
- test_dags — более полное решение для тестов целостности DAG (первым является Inferno от Circle of Data).
- dag-factory — библиотека для динамического создания DAG Apache Airflow из файлов конфигурации YAML.
- Whirl — Быстрая итеративная локальная разработка и тестирование рабочих процессов Apache Airflow.
- airflow-code-editor — плагин для Apache Airflow, который позволяет редактировать группы обеспечения доступности баз данных в браузере.
- Pylint-Airflow — плагин Pylint для статического анализа кода Airflow.
- afctl — инструмент CLI, который включает в себя все необходимое для более быстрого и бесперебойного создания, управления и развертывания проектов Airflow.
- Средство просмотра зависимостей Dag — плагин, который создает представление для визуализации зависимостей между группами DAG Airflow.
- Плагин Airflow ECR — плагин для регулярного обновления токена входа в AWS ECR. Это полезно, когда DockerOperator необходимо получить изображения, размещенные в ECR.
- AirflowK8sDebugger — библиотека для создания шаблонов yaml модулей k8s из файла Airflow с помощью KubernetesPodOperator.
- Oozie to Airflow — инструмент для легкого преобразования между рабочими процессами Apache Oozie и рабочими процессами Apache Airflow.
- Airflow Ditto — расширяемая платформа для преобразований в группу DAG Airflow и преобразования ее в другую группу обеспечения доступности баз данных, изоморфную по потоку с исходной группой обеспечения доступности баз данных, чтобы иметь возможность запускать ее в разных средах (например, в разных облаках или даже в разных контейнерных платформах). Apache Spark на YARN против Kubernetes). Поставляется с готовой поддержкой преобразований EMR в HDInsight-DAG.
- порывистый — создайте группу обеспечения доступности баз данных, используя любое количество файлов YAML, Python, Jupyter Notebook или R Markdown, которые представляют отдельные задачи в группе обеспечения доступности баз данных. gusty также настраивает зависимости, группы обеспечения доступности баз данных и группы задач, обеспечивает поддержку ваших местных операторов и многое другое. Полностью контейнеризованная демо-версия доступна здесь.
- Meltano — автономный инструмент с открытым исходным кодом, ориентированный на CLI, отлаживаемый и расширяемый инструмент ELT, который использует Singer для извлечения и загрузки, использует dbt для преобразования и интегрируется с Airflow для оркестрации.
- Проверки DAG. Проверки DAG состоят из проверок, которые могут помочь вам в обслуживании экземпляра Apache Airflow.
- Плагин Airflow DVC — плагин для системы контроля версий с открытым исходным кодом для конвейеров обработки данных и машинного обучения — DVC.
- Airflow Vars — CLI для управления переменными, созданный для CD-Pipelines, чтобы обеспечить надежное и безопасное управление переменными.
- airflow-priority — теги приоритета (P1, P2 и т. д.) для групп обеспечения доступности баз данных Airflow с автоматическим оповещением Datadog, New Relic, Slack, Discord и т. д.
- airflow-config — система конфигурации на основе Pydantic/Hydra для аргументов DAG и Task.
- airflow-supervisor — простая в использовании интеграция супервизора для длительно работающих или «всегда включенных» групп DAG.
Встречи
- Встреча Apache Airflow в Амстердаме
- Встреча Apache Airflow в Бангалоре
- Встреча Apache Airflow в районе залива
- Встреча Apache Airflow в Лондоне
- Встреча Apache Airflow в Мельбурне
- Встреча Apache Airflow в Нью-Йорке
- Встреча Apache Airflow в Париже
- Встреча Portland Apache Airflow
- Встреча Apache Airflow в Токио
- Варшавская встреча Apache Airflow
Коммерческие поставщики услуг Airflow как услуга
- Google Cloud Composer — Google Cloud Composer — это управляемый сервис, созданный на базе Google Cloud и Airflow.
- Qubole — Qubole в основном известна как компания по обслуживанию и поддержке Apache Hive, но также предоставляет Airflow как компонент своей платформы.
- Astronomer.io — Astronomer предоставляет полные решения жизненного цикла ETL и, похоже, полностью сосредоточен на предоставлении продуктов на основе Airflow.
- AWS MWAA — Amazon Managed Workflows для Apache Airflow (MWAA) — это управляемый сервис оркестрации для Apache Airflow, который упрощает настройку и эксплуатацию сквозных конвейеров данных в облаке в любом масштабе.
Ресурсы Cloud Composer
В этом разделе собраны статьи, относящиеся к Cloud Composer — сервису, созданному Google Cloud на основе Apache Airflow. Здесь описаны приемы и решения, которые предназначены для Cloud Composer, но могут быть применимы и к Vanilla Airflow.
- Включение автоматического масштабирования в Google Cloud Composer. Ускорьте развертывание Cloud Composer, сэкономив при этом некоторые затраты в периоды простоя.
- Масштабируйте свою среду Composer вместе с вашим бизнесом — архитектура Celery Executor и способы обеспечения высокой производительности планировщика.
- pianka.sh — в инструменте gcloud отсутствует команда. Этот инструмент облегчает некоторые административные задачи.
- Более разумный способ масштабирования с помощью планировщика воздушного потока Composer на GKE — Рой Берковиц обсуждает более эффективное использование узлов в сервисе Cloud Composer.
- Вместе лучше: организация конвейеров Data Fusion с помощью Cloud Composer — Рэйчел Дикон-Смит представляет обзор оператора сценария использования Datafusion в Cloud Composer.
Неанглоязычные ресурсы
- Документация Airflow на китайском языке — (?? Китайский) Apachecn перевел официальную документацию Airflow.
- Gestion de Tâches avec Apache Airflow — (??Французский) Николас Крокфер — Обзор Airflow, основные понятия, а также способы написания и запуска группы обеспечения доступности баз данных.
- Airflowはすごいぞ!100行未満で本格的なデータパイプライン - (??Японский) Хэнк Эли дает подробное введение в основные концепции Airflow и демонстрирует, как создать конвейер данных менее чем в 100 строках кода.
- apache airflow 複数worker構成のalpine版docker imageを作った — (??Японский) Акио Ота рассматривает свой образ Docker для развертывания системы Airflow на базе Alpine.
- AirflowのタスクログをS3に保存する方法 — (??Японский) Хэнк Эли показывает шаг за шагом, как настроить отправку журналов задач на AWS S3.
- 【徹底解説】Airflow Fluentd Elasticsearch Docker の連携方法 — (??Японский) Хэнк Эли описывает, как обрабатывать журналы рабочих задач с помощью Fluentd, Elasticsearch и Docker.
- Apache Airflow – Кайкки Мита Мейлля Он, Ляхтее Дагейста – (??финский) обзор Олли Иивонена по Airflow, концепциям и использованию Airflow в Solita.
- Airflow - Automatizando seu fluxo de trabalho - (??Португальский) Обзор Airflow, концепции и базового использования, сделанный Жилсоном Филью.
- Panduan Dasar Apache Airflow — (индонезийский) Имам Дигми — Обзор Airflow, концепция, базовое использование и варианты использования.
- Airflow — (??Вьетнамский) Duyet Le — Обзор Airflow, концепция, базовое использование и варианты использования.
- Сообщения Майкла Янга в блоге Airflow на китайском языке. Сообщения Майкла Янга в блоге на китайском языке об обработке данных с помощью Apache Airflow содержат базовые руководства и навыки DevOps.
Примеры проектов
- Конвейеры общедоступных наборов данных Google Cloud Platform — облачная архитектура конвейера данных для включения наборов данных в программу общедоступных наборов данных Google Cloud.
- Группы обеспечения доступности данных GitLab Data — несколько групп обеспечения доступности баз данных, используемых для создания аналитики для платформы GitLab.
- Deploy-airflow-on-ecs-fargate — развертывание в Amazon ECS Fargate. Демонстрирует различные функции и конфигурации, такие как автоматическое масштабирование рабочих процессов до нуля, удаленное ведение журнала S3 и управление секретами.
Лицензия
Насколько это возможно по закону, Якоб Хоман отказался от всех авторских и смежных прав на это произведение.