Aliran Udara Apache yang Luar Biasa
Ini adalah daftar sumber daya yang dikurasi tentang Apache Airflow. Silakan menyumbangkan item apa pun yang harus disertakan. Item umumnya ditambahkan di bagian atas setiap bagian sehingga item yang lebih segar ditampilkan dengan lebih menonjol.
Isi
- Tautan penting
- Solusi penyebaran aliran udara
- Perkenalan dan tutorial
- Video KTT Aliran Udara 2020
- Praktik terbaik, pembelajaran, dan kasus penggunaan yang keren
- Buku, blog, podcast, dan semacamnya
- Presentasi dek slide dan video online
- Perpustakaan, Kait, Utilitas
- Pertemuan
- Penyedia Aliran Udara sebagai layanan Komersial
- Sumber daya Cloud Composer
- Sumber daya non-Inggris
Tautan penting
- Kode sumber (rilis stabil terbaru 1.10.12)
- Dokumentasi (juga situs resmi)
- Halaman pertemuan
- Ruang kerja kendur
Solusi penyebaran aliran udara
- Menginstal Airflow di IBM Cloud - Penerapan cepat dan mudah di IBM Cloud dengan IBM Bitnami Charts
- Tiga cara menjalankan Airflow di Kubernetes - Tim van de Keer membahas beberapa metode untuk menerapkan Airflow di Kubernetes.
- Penerapan Gratis Multi-Tingkat Apache Airflow di Azure - Templat Azure Resource Manager (ARM) gratis dari Bitnami yang menyediakan solusi sekali klik untuk penerapan Airflow di Azure untuk kasus penggunaan produksi.
- KubernetesExecutor Helm Chart - Diagram Helm yang ramping menggunakan KubernetesExecutor untuk pengalaman yang lebih asli dari k8 dan Image Docker KubernetesExecutor yang saling melengkapi.
- Bagan Helm Seledri Stabil - Bagan Helm Terkurasi di gudang bagan stabil resmi.
- Gambar Docker Puckel - Gambar Docker @Puckel_ yang dibuat dengan baik telah menjadi dasar bagi banyak instalasi Airflow. Ini diperbarui secara berkala dan melacak rilis resmi Apache.
- Operator Kustom Kubernetes untuk Menerapkan Aliran Udara - Pengontrol Kustom Kubernetes (juga disebut pola operator) untuk menerapkan Aliran Udara di Kubernetes.
- airflow-pipeline - Kontainer Airflow Docker yang telah dikonfigurasi sebelumnya untuk Spark dan Hadoop. Itu bisa ditarik buruh pelabuhan di
datagovsg/airflow-pipeline
. - aws-airflow-stack - Penerapan klaster Airflow berbasis AWS dengan CeleryExecutor. Disebarkan setelah beberapa klik dengan CloudFormation.
- kube-airflow - Repositori ini berisi image Airflow Docker (yang tampaknya didasarkan pada karya Puckel) dan definisi layanan Kubernetes. Repositori mumoshu belum diperbarui baru-baru ini, tetapi ada banyak fork yang mungkin didasarkan pada rilis yang lebih baru.
- airflow-on-kubernetes - Panduan tentang semua sumber daya, skrip, dan proyek relevan yang terkait dengan menjalankan Airflow di Kubernetes.
- airflow-k8s-executor-on-GKE - Tutorial mendetail untuk menerapkan lingkungan eksekutor kubernetes aliran udara yang skalabel dan rendah pemeliharaan di Google Kubernetes Engine dengan helm.
- airflow-cookbook - Buku masak koki untuk menerapkan Airflow.
- Menjalankan Airflow di atas Apache Mesos - Blog yang menjelaskan cara mengkonfigurasi Mesos untuk menjalankan semua komponen Airflow.
- Mengintegrasikan Apache Airflow dengan Apache Ambari - Mykola Mykhalov menjelaskan penggunaan Apache Ambari untuk mengonfigurasi dan menerapkan instance Airflow.
- Platform Astronom - Apache Airflow sebagai Layanan di Kubernetes. Untuk informasi lebih lanjut kunjungi https://www.astronomer.io.
- Gambar Docker Aliran Udara Bitnami - Gambar buruh pelabuhan yang aman dan terkini untuk Airflow yang dikelola oleh Bitnami.
- Gambar Docker Penjadwal Aliran Udara Bitnami - Gambar buruh pelabuhan yang aman dan terkini untuk Penjadwal Aliran Udara yang dikelola oleh Bitnami.
- Gambar Docker Pekerja Aliran Udara Bitnami - Gambar buruh pelabuhan yang aman dan terkini untuk Pekerja Aliran Udara yang dikelola oleh Bitnami. Penerapan penulisan buruh pelabuhan CeleryExecutor tersedia di sini.
- Distribusikan & terapkan Apache Airflow melalui file Python PEX - Contoh repo dengan langkah-langkah untuk menggabungkan, mendistribusikan, & menerapkan Apache Airflow sebagai file PEX.
- Memperkenalkan KEDA untuk Airflow - Cara menggunakan sistem scaler KEDA untuk mengaktifkan penskalaan otomatis pekerja seledri berdasarkan data yang disimpan dalam database metadata Airflow.
- Airflow-Component - Penginstal ringan arsitektur referensi federasi Airflow-Airflow (RabbitMQ) pada node Compute.
Perkenalan dan tutorial
- Metrik Pemantauan Aliran Udara Apache - Seri dua bagian oleh maxcotec tentang bagaimana Anda dapat memanfaatkan metrik statistik Aliran Udara yang ada untuk memantau penyebaran aliran udara Anda di dasbor Grafana melalui Prometheus. Pelajari juga cara membuat metrik khusus.
- Pengantar Airflow - Seri tutorial web oleh maxcotec untuk pengguna pemula dan menengah Apache Airflow.
- ETL dengan Apache Airflow untuk Analisa Data pada Data Transaksi. Kimaru Thagana membahas kasus praktis dalam melakukan proses ETL menggunakan Apache Airflow menggunakan data transaksi, pengguna, dan produk toko e-niaga tiruan. Data disajikan melalui API labu.
- Mulai Membangun Saluran Data yang Lebih Baik Dengan Apache Airflow 2020-Okt - Naman Gupta membahas dasar-dasar Airflow dan konsepnya.
- Templat Repositori Aliran Udara - Repositori boilerplate untuk dikembangkan secara lokal dengan Airflow, dengan linting & pengujian untuk DAG dan plugin yang valid. Cukup kloning dan jalankan
make start-airflow
untuk memulai! Tambahkan beberapa pekerjaan CI untuk menerapkan kode Anda dan selesai. - Bagaimana Apache Airflow Mendistribusikan Pekerjaan pada pekerja Seledri - Deskripsi singkat tentang langkah-langkah yang diambil oleh instance tugas, mulai dari penjadwalan hingga keberhasilan, dalam arsitektur terdistribusi.
- Pengiriman percikan jarak jauh ke YARN yang berjalan di EMR - Azhaguselvan melakukan pengiriman pekerjaan Spark ke kluster EMR yang ada dengan Airflow.
- Menjalankan Airflow di atas Apache Mesos dan tindak lanjutnya, Mesos, Airflow & Docker oleh Agraj Mangal adalah ikhtisar singkat menjalankan Airflow di atas Apache Mesos.
- Dustin Stansbury dari Quizlet telah menulis seri empat bagian yang mencakup apa yang dilakukan manajer alur kerja secara umum, bagaimana Quizlet memilih Airflow, tur konsep utama Airflow, dan bagaimana Quizlet sekarang menggunakan Airflow dalam praktiknya:
- Beyond CRON: pengenalan Sistem Manajemen Alur Kerja
- Mengapa Quizlet memilih Apache Airflow untuk menjalankan alur kerja data
- Memahami konsep utama Apache Airflow
- Bagaimana Quizlet menggunakan Apache Airflow dalam praktiknya
- Mengintegrasikan Apache Airflow dengan Databricks - Meskipun tutorial ini difokuskan secara khusus pada solusi Spark Databricks, tutorial ini memiliki gambaran umum yang masuk akal tentang dasar-dasar Airflow dan menunjukkan bagaimana solusi pihak ketiga dapat dengan cepat berintegrasi ke dalam Airflow.
- Tutorial Apache Airflow 2.0 - Artikel ini membahas konsep dasar yang ada di balik Airflow dan membahas masalah yang dipecahkannya.
- Menguji dan men-debug Apache Airflow - Artikel yang menjelaskan cara menerapkan pengujian unit, mocking, dan debugging ke kode Airflow.
- Mulai mengembangkan alur kerja dengan Apache Airflow - Tutorial pengantar singkat ini mencakup cara membuat alur data dan alur kerja pemrosesan menggunakan DAG, operator, Sensor, menggunakan Xcoms untuk berkomunikasi antar operator.
- Memulai Airflow + Google Cloud Platform + Docker - Pengenalan langkah demi langkah oleh Jayce Jiang.
- Cara mengembangkan saluran data di Airflow melalui TDD (pengembangan berbasis pengujian) - Pelajari cara membuat saluran data penjualan menggunakan TDD langkah demi langkah dan pada akhirnya cara mengonfigurasi alur kerja CI sederhana menggunakan Tindakan Github.
Video KTT Aliran Udara 2020
Airflow Summit 2020 pertama diadakan pada bulan Juli 2020. Ini adalah acara yang benar-benar global dan sepenuhnya online yang diselenggarakan bersama oleh 9 Airflow Meetup dari seluruh dunia (Melbourne, Tokyo, Bangalore, Warsawa, Amsterdam, London, NYC, BayArea ).
Ini menampilkan 40+ pembicaraan dan tiga lokakarya. Anda dapat melihat rekaman pembicaraan sebagai Daftar Putar YouTube Airflow Summit 2020 atau melihat pembicaraan individual di sini:
- Intisari: Aliran udara dulu dan sekarang
- Penjadwal sebagai layanan - Apache Airflow di EA Digital Platform
- Intisari: Bagaimana perusahaan besar menggunakan Airflow untuk pipeline ML dan ETL
- Data DAG dengan garis keturunan untuk kesenangan dan keuntungan
- Aliran Udara di Kubernetes: Memasukkan alur kerja Anda ke dalam container
- Aliran data dengan Airflow @ PayPal
- Alur kerja data yang didemokratisasikan dalam skala besar
- Memigrasikan pekerjaan Spark berbasis Airflow ke Kubernetes - dengan cara asli
- Keynote: Masa Depan Aliran Udara
- Jalankan Airflow DAG dengan cara yang aman
- Keynote: Menjadikan Airflow sebagai proyek berkelanjutan melalui D&I
- Airflow CI/CD: Github ke Cloud Composer (aman)
- Superset Apache Tingkat Lanjut untuk Insinyur Data
- Demo: Mengurangi garis, editor visual DAG
- AIP-31: Definisi DAG fungsional aliran udara
- Mengemudi otonom dengan Airflow
- Dari cron hingga Airflow di Kubernetes: Sebuah kisah startup
- Mencapai Observabilitas Aliran Udara
- Pembelajaran Mesin dengan Apache Airflow
- Aliran Udara: Karakter binatang buas di dunia game
- Ketergantungan Cross-DAG yang efektif
- Apa yang diajarkan open source kepada kita tentang bisnis
- Hirarki kebutuhan rekayasa data
- Membangun saluran pipa ELT yang dapat digunakan kembali dan tepercaya (Pendekatan berdasarkan template)
- Menguji alur kerja Aliran Udara - memastikan DAG Anda berfungsi sebelum masuk ke produksi
- Menambahkan eksekutor ke Airflow: Pengecualian kontributor overflow
- Migrasi ke penyedia backport Airflow
- Dari Nol ke Aliran Udara: melakukan bootstrap pada platform ML
- Airflow adalah pasangan yang sempurna dalam saluran analitik kami
- Airflow di Société Générale : Solusi orkestrasi sumber terbuka di lingkungan perbankan
- Airflow sebagai sistem alur kerja generasi berikutnya di Pinterest
- Meningkatkan pengalaman pengguna Airflow
- Mengajarkan trik baru kepada DAG lama
- Tanyakan apa saja kepada saya dengan anggota Airflow
- Menggunakan Airflow untuk mempercepat pengembangan alat intensif data
- Saluran pipa di saluran pipa: Alur kerja CI/CD yang tangkas untuk DAG Aliran Udara
- Gambar Docker produksi untuk Apache Airflow
- Aliran udara sebagai alat ETL yang elastis
- Bagaimana pendapat kami tentang keandalan saluran data kami di Wrike
- Mencapai kemampuan observasi Aliran Udara dengan Databand
- Dari S3 hingga BigQuery - Bagaimana pengguna Airflow pertama kali berhasil mengimplementasikan pipeline data
Praktik terbaik, pembelajaran, dan kasus penggunaan yang keren
- Cara Terbaik Menggunakan DuckDB dengan Apache Airflow - Tips mengintegrasikan DuckDB ke dalam pekerjaan Airflow.
- Manajemen Paket Airflow Dag Python - Mengelola dependensi paket python di 100+ dag bisa jadi menyusahkan. Sulit untuk melacak paket mana yang digunakan oleh dag mana, dan sulit untuk membersihkannya selama penghapusan/peningkatan DAG. Pelajari bagaimana KubernetesPodOperator dan DockerOperator dapat memperbaikinya.
- Manajemen & Pembuatan Versi Airflow Dag - Kelola proses rilis DAG secara efisien menggunakan Submodul Git
- Pengujian Aliran Udara Bagian 2 - Chandu Kavar dan Sarang Shinde telah menjelaskan Pengujian Integrasi dan Pengujian Saluran Pipa End-to-End.
- Meningkatkan & Menskalakan Aliran Udara di Robinhood - Abishek Ray menjelaskan bagaimana Robinhood menangani peningkatan Aliran Udara produksinya sekaligus meminimalkan waktu henti.
- Kita semua salah menggunakan Airflow dan cara memperbaikinya - Jessica Laughlin dari Bluecore berbagi tiga masalah teknik yang terkait dengan desain Airflow dan cara menyelesaikannya dengan menggunakan KubernetesPodOperator dalam dua pola desain.
- Memulai Silsilah Data - Germain Tanguy dari Dailymotion membagikan prototipe silsilah data yang terintegrasi ke Apache Airflow.
- Kolaborasi antara teknisi data, analis data, dan ilmuwan data - Germain Tanguy dari Dailymotion berbagi cara merilis produksi secara efisien melalui kolaborasi dengan Apache Airflow.
- Menggunakan Operator Docker Apache Airflow dengan Repositori Kontainer Amazon - Brian Campbell dari Lucid memiliki tips untuk mengintegrasikan layanan ECR AWS dengan DockerOperator Airflow.
- Airflow: Tip, Trik, dan Praktik Terbaik yang Kurang Diketahui - Kaxil Naik telah menjelaskan tip dan praktik terbaik yang kurang dikenal namun sangat berguna dalam menggunakan Airflow.
- lapisan batas: Alur Kerja Aliran Udara Deklaratif - Kevin McHale telah menjelaskan lapisan batas proyek sumber terbuka yang menghasilkan aliran udara dengan alur kerja deklaratif.
- Pengujian di Aliran Udara Bagian 1 - Chandu Kavar telah menjelaskan berbagai kategori pengujian di Aliran Udara. Ini mencakup Tes Validasi DAG, Tes Definisi DAG, dan tes unit.
- Meningkatkan Keamanan UI Airflow - Joy Gao dari WePay menguraikan kebutuhan akan Kontrol Akses Berbasis Peran (RBAC) dan cara dia memperkenalkannya ke Airflow.
- Cara Membuat Alur Kerja di Apache Airflow untuk Melacak Wabah Penyakit di India - Vinayak Mehta merinci bagaimana SocialCops menggunakan Airflow untuk mengikis Kementerian Kesehatan dan Urusan Keluarga India guna menghasilkan data turunan tentang kemungkinan wabah penyakit.
- Aliran Udara, Rekayasa Meta Data, dan Platform Data untuk Demokrasi Terbesar di Dunia - Vinayak Mehta berbicara tentang mengidentifikasi pola rekayasa data (meta data engineering) untuk mengotomatisasi pembuatan DAG dan bagaimana hal itu membantu SocialCops mendukung DISHA, sebuah platform data nasional tempat anggota parlemen India dan MLA memantau kemajuan 42 skema tingkat nasional.
- Pelajaran yang didapat saat Airflow-ing dan Airflow Bagian 2: Pelajaran yang didapat - Nehil Jain telah menulis seri dua bagian yang mencakup nilai penjadwal alur kerja, beberapa praktik terbaik, dan kendala yang dia temukan saat bekerja dengan Airflow. Artikel kedua khususnya memuat banyak tip produksi.
- Mengapa Robinhood menggunakan Airflow - Vineet Goel menjelaskan mengapa platform perdagangan keuangan Robinhood memilih Airflow daripada penjadwal kerja alternatif.
- Apa yang kami pelajari saat bermigrasi dari Cron ke Airflow - Katie Macias menjelaskan perjalanan Teknik Data VideoAmp dari cron ke Airflow.
- Under the Hood: Membangun AIR di Qubole - Sreenath Kamath dan Rajat Venkatesh menulis tentang membangun platform penemuan data, wawasan, dan rekomendasi Qubole di atas Airflow.
- Aliran Udara: Mengapa tidak ada yang berfungsi? - TL;DR SubDagOperator Airflow menyebabkan kebuntuan oleh Jessica Laughlin - Menyelami lebih dalam pemecahan masalah DAG Airflow yang bermasalah dengan tip bagus tentang cara mendiagnosis masalah.
- Apache Airflow sebagai penjadwal eksternal untuk sistem terdistribusi - Arunkumar menyarankan penggunaan Airflow sebagai penjadwal eksternal sederhana untuk sistem terdistribusi.
- Bagaimana Sift Melatih Ribuan Model menggunakan Apache Airflow - Ringkasan strategi penerapan Sift Science untuk pipeline model pembelajaran mesinnya.
- Apache Airflow di Pandora - Ace Haidrey membahas mengapa Pandora memilih Airflow dan memberikan rincian rinci penerapannya dan infrastruktur di baliknya.
- Pelajaran Airflow dari Front Teknik Data di Chicago - Alison Stanton memberikan daftar tips untuk menghindari kesalahan dalam pekerjaan Airflow.
- Inferno Data: 7 Lingkaran Neraka Pengujian Data dengan Aliran Udara - Tim Analisis Tingkat Lanjut Perbankan Grosir di ING merinci bagaimana mereka menyiksa pengujian DAG Aliran Udara mereka sebelum penerapan.
- Pengujian Data dengan repositori Airflow
- Pemeriksa kualitas data - Antoine Augusti menjelaskan kerangka kerja yang dibangun di atas Airflow untuk menguji kumpulan data mereka untuk kelengkapan, konsistensi, ketepatan waktu, keunikan, validitas, dan akurasi.
- Membangun gudang data WePay menggunakan BigQuery dan Airflow - Chris Riccomini yang tak ternilai menjelaskan bagaimana WePay, salah satu pengguna pertama Airflow, berintegrasi ke dalam lingkungan Google Cloud Compute mereka.
- Menggunakan Apache Airflow untuk Membuat Infrastruktur Data di Sektor Publik - Sayangnya, meskipun nada promosi penjualan sangat berat, postingan blog artikel ini menjelaskan bagaimana ARGO Labs, sebuah organisasi data nirlaba, menggunakan Airflow untuk ETLing dalam data sektor publik.
- ETL dengan aliran udara - Prinsip inti ETL dan beberapa contoh berbasis buruh pelabuhan end-to-end termasuk Kimball, Data Vault on Hive, dan beberapa contoh sederhana.
- Cara menggabungkan data untuk BigQuery menggunakan Apache Airflow - Contoh cara menggunakan Airflow dengan Google BigQuery untuk mendukung dasbor Data Studio.
- Memproduksi ML dengan alur kerja di Twitter - Postingan mendalam tentang mengapa dan bagaimana Twitter menggunakan Airflow untuk alur kerja ML termasuk menyertakan operator khusus dan UI khusus yang tertanam di antarmuka web Airflow.
- Menjalankan Apache Airflow Di Lyft - Ini memberikan gambaran umum tentang bagaimana Lyft mengoperasikan Apache Airflow dalam produksi (pemantauan, penyesuaian, dll).
- Menyebarkan Apache Airflow di Azure untuk membangun dan menjalankan saluran data - Ini membahas tentang menjalankan Airflow di Azure.
- The Zen of Python dan Apache Airflow - Postingan blog tentang bagaimana Zen of Python dapat diterapkan ke kode Airflow.
- Mengamankan UI Apache Airflow DENGAN Akses Tingkat DAG - Postingan blog tentang akses tingkat DAG Airflow dan cara Lyft menggunakannya.
- Meningkatkan Aliran Udara dengan Waktu Henti Nol - Artikel mendetail tentang cara menerapkan Aliran Udara tanpa waktu henti.
- Membangun Platform Pipeline ETL Tingkat Produksi Menggunakan Apache Airflow - Posting ini menjelaskan bagaimana tim manajemen sistem di Cerner menggunakan Airflow.
- Aliran Udara Minimal di Kubernetes (Lokal, EKS, AKS) - Artikel tentang penerapan Aliran Udara di Kubernetes lokal, AWS EKS, dan Azure AKS dengan pengaturan minimal.
- Memecah monorepo DAG Airflow - Posting ini menjelaskan cara mendukung pengelolaan DAG Airflow dari beberapa repo git melalui S3.
- Meningkatkan Kinerja Apache Airflow Scheduler - Kisah petualangan yang memungkinkan Databand mempercepat waktu penguraian DAG sebanyak 10 kali lipat
- Bagaimana SSENSE menggunakan Apache Airflow untuk melakukan Silsilah Data di AWS - Menjelajahi tema mendasar dalam merancang dan mengatur data lake di AWS menggunakan Apache Arflow.
- Memantau Aliran Udara dengan Prometheus, StatsD, dan Grafana - Panduan tentang cara menyiapkan dasbor operasional ke kluster produksi dengan Databand dan mendapatkan visibilitas tingkat tinggi di Airflow.
- Orkestrasi tugas kompleks di Hurb dengan Apache Airflow - Postingan ini menunjukkan bagaimana Hurb menggunakan Apache Airflow untuk mengatur tugas-tugas kompleks dan bagaimana Hurb memanfaatkan kreasi dinamis DAG untuk meningkatkan kecepatan pengembangan.
- Mengotomatiskan ekspor data dari CrateDB ke S3 dengan Apache Airflow Tutorial tentang cara mengotomatiskan kueri berulang di CrateDB dengan Apache Airflow, seperti ekspor data berkala ke Amazon S3.
- Penerapan Kebijakan Retensi Data dengan CrateDB dan Apache Airflow Tutorial langkah demi langkah tentang cara menerapkan kebijakan retensi data yang efektif dengan CrateDB dan Apache Airflow.
- Menyerap Data Taksi NYC Dari S3 Ke CrateDB - Menjelaskan cara membuat alur penyerapan database di Airflow dengan memuat file CSV dari S3 ke CrateDB.
Buku, blog, podcast, dan semacamnya
- Saluran Data dengan Apache Airflow - Buku Manning (Akses Awal September 2019) tentang Airflow.
- The Airflow Podcast - Podcast semireguler yang membahas semua hal tentang Airflow.
- Maxime Beauchemin - Blog Maxime tentang media yang memberikan wawasan tentang filosofi di balik Apache Airflow.
- Robert Chang - Postingan blog tentang rekayasa data dengan Apache Airflow, menjelaskan alasannya dan memiliki contoh dalam kode.
- Menangani log Airflow dengan Kubernetes Executor - Sebuah postingan blog yang menjelaskan cara mengatur logging S3 jarak jauh saat menggunakan KubernetesExecutor, tanpa membuat infrastruktur yang rumit.
- Airflow 2.0: Penulisan DAG Didesain Ulang - Entri blog tentang cara baru menulis DAG di Airflow 2.0.
- Penyedia Airflow 2.0 - Posting blog tentang paket penyedia di Airflow 2.0.
Presentasi dek slide dan video online
- Februari 2020: Apache Airflow @ Umuzi.org - Sheena O'Connell membahas bagaimana kamp pelatihan teknologi Umuzi yang berbasis di Afrika Selatan menggunakan Airflow.
- Tutorial YouTube Apache Airflow - Marc Lamberti telah membuat serangkaian tutorial YouTube yang mencakup banyak aspek konsep, konfigurasi, dan penerapan Airflow.
- Pola Rekayasa Data Tingkat Lanjut dengan Apache Airflow - Video pembicaraan Maxime Beauchemin yang secara singkat memperkenalkan Airflow dan kemudian membahas kasus penggunaan lebih lanjut, termasuk kueri SQL layanan mandiri, membangun kerangka kerja metrik pengujian A/B, dan ekstraksi fitur pembelajaran mesin, semuanya melalui Airflow. Slide tersedia secara terpisah di sini.
- Saluran Data Modern dengan Apache Airflow - Ceramah yang disampaikan oleh Taylor Edmiston dan Andy Cooper dari Astronomer.io di Momentum Dev Con 2018 tentang memulai Airflow, komponen khusus, contoh DAG, dan Astronomer Airflow CLI.
- Membangun Saluran Data yang Lebih Baik menggunakan Apache Airflow - Slide dari pembicaraan Sid Anand di QCon 18 dengan gambaran menyeluruh tentang Airflow dan arsitekturnya.
- Airflow dan Spark Streaming di Astronomer - Bagaimana Astronom menggunakan DAG dinamis untuk menjalankan pekerjaan Spark Streaming dengan Airflow.
- Apache Airflow di Cloud: Mengatur beban kerja secara terprogram dengan Python - Slide dari pembicaraan Kaxil Naik & Satyasheel di PyData London 18 memperkenalkan dasar-dasar Airflow dan cara mengatur beban kerja di Google Cloud Platform (GCP).
- Mengembangkan alur kerja yang elegan dalam kode Python dengan Apache Airflow - Michał Karzyński di Europython memberikan pengenalan singkat tentang konsep Airflow termasuk peran manajer alur kerja, DAG, dan operator. Tautan mencakup video dan slide.
- Manajemen Saluran Data - Ben Goldberg memandu Chicago Kubernetes Meetup tentang cara SpotHero menggunakan Airflow. Selain itu, Ben memiliki slidedeck yang sangat lengkap tentang bagaimana Airflow bermain di dalam Kubernetes.
- Bagaimana saya belajar melakukan perjalanan waktu, atau, penyaluran data dan penjadwalan dengan Airflow - Dek komprehensif oleh Laura Lorenz tentang mengapa Airflow diperlukan dan bagaimana Industry Dive menggunakannya.
- Pengantar Apache Airflow - Data Day Seattle 2016 - Sid Anand memberikan pengenalan menyeluruh tentang Airflow dan cara penggunaannya di Agari.
- Mengoperasikan Pipa Data Dengan Aliran Udara - Pertemuan Aliran Udara April-2018 - Ananth Packkildurai berbicara tentang penskalaan Pelaksana Lokal aliran udara dan praktik terbaik untuk mengoperasikan pipa data di Slack.
- Apache Airflow di WePay - Chris Riccomini membahas alasan WePay memilih Airflow dan memberikan perincian mendetail tentang penerapannya serta infrastruktur di baliknya.
- Pipelining data yang elegan dengan Apache Airflow - Pembicaraan dari Bolke de Bruin dan Fokko Driesprong di PyData Amsterdam 2018 tentang metodologi yang memberikan kejelasan dalam ETL menggunakan Airflow.
- Airflow @ Lyft - Pembicaraan dari Tao Feng di pertemuan analisis data besar SF tentang bagaimana Lyft memantau menjalankan Airflow dalam produksi.
- Saluran data yang dapat dikelola dengan Airflow dan Kubernetes - Pembicaraan oleh Jarek Potiuk dan Szymon Przedwojski. Pembicaraan pengantar tentang Airflow dari GDG Warsaw DevFest 2018.
- Memigrasi Alur Kerja Apache Oozie ke Apache Airflow - Pembicaraan dari Szymon Przedwojski dari Airflow Bay Area Meetup Juni 2018 tentang alat migrasi Oozie-to-Airflow.
- Membangun data lake dengan Apache Airflow - Pembicaraan oleh Bas Harenslak dan Julian de Ruiter di pertemuan Amsterdam Apache Airflow September 2018 tentang membangun data lake dengan Apache Airflow sebagai laba-laba di web yang mengelola semua aliran data.
- Pertemuan Apache Airflow Warsawa Pertama - Rekaman streaming langsung dari Pertemuan Apache Airflow pertama di Warsawa pada bulan Oktober 2019.
- Apa yang akan hadir di Apache Airflow 2.0 - pembicaraan bersama oleh Ash Berlin-Taylor, Kaxil Naik, Jarek Potiuk, Kamil Breguła, Daniel Imbermann, dan Tomek Urbaszek di Online NYC Meetup, 13 Mei 2020
- Airflow Breeze - Lingkungan Pengembangan dan Pengujian untuk Apache Airflow - Screencast menunjukkan cara menggunakan lingkungan Breeze oleh Jarek Potiuk.
Perpustakaan, Kait, Utilitas
- Domino - Domino adalah platform Antarmuka Pengguna Grafis sumber terbuka untuk membuat data dan alur kerja Pembelajaran Mesin (DAG) tanpa kode, tindakan seret dan lepas yang intuitif secara visual. Ini juga merupakan standar untuk menerbitkan dan membagikan kode Python Anda sehingga dapat digunakan secara otomatis oleh siapa saja, langsung di GUI.
- Airflow-Helper - menyiapkan Variabel Aliran Udara, Koneksi, dan Kumpulan dari file konfigurasi YAML.
- AirFly - Otomatis menghasilkan dag.py Airflow dengan cepat.
- DEAfrica Airflow - Perpustakaan aliran udara yang digunakan oleh Digital Earth Africa, sebuah upaya kemanusiaan untuk memanfaatkan citra satelit Afrika.
- Plugin Airflow - Pusat kumpulan repositori berbagai plugin untuk Airflow, termasuk mailchimp, trello, sftp, GitHub, dll.
- fileflow - Kumpulan modul untuk mendukung transfer data besar antar operator Airflow melalui sistem file lokal atau S3. Hal ini mengatasi kesenjangan di mana data terlalu besar untuk XCOM tetapi terlalu kecil atau tidak nyaman untuk dimuat langsung ke operator. Dibangun oleh Industry Dive.
- fairflow - Perpustakaan untuk mengabstraksi Operator Airflow dengan bagian fungsional yang mengubah data dari satu operator ke operator lainnya.
- airflow-maintenance-dags - Clairvoyant memiliki repo DAG Airflow yang dioperasikan pada Airflow itu sendiri, membersihkan berbagai bagian penyimpanan metadata pendukung.
- test_dags - solusi yang lebih lengkap untuk pengujian integritas DAG (Lingkaran pertama Inferno Data adalah yang pertama.
- dag-factory - Pustaka untuk menghasilkan DAG Apache Airflow secara dinamis dari file konfigurasi YAML.
- pusaran - Pengembangan lokal berulang yang cepat dan pengujian alur kerja Apache Airflow.
- airflow-code-editor - Sebuah plugin untuk Apache Airflow yang memungkinkan Anda mengedit DAG di browser.
- Pylint-Airflow - Plugin Pylint untuk analisis kode statis pada kode Airflow.
- afctl - Alat CLI yang mencakup semua yang diperlukan untuk membuat, mengelola, dan menerapkan proyek aliran udara dengan lebih cepat dan lancar.
- Dag Dependencies viewer - Sebuah plugin yang membuat tampilan untuk memvisualisasikan ketergantungan antara Airflow DAG
- Plugin Airflow ECR - Plugin untuk menyegarkan token login AWS ECR secara berkala. Ini berguna ketika DockerOperator perlu menarik image yang dihosting di ECR.
- AirflowK8sDebugger - Pustaka untuk menghasilkan templat pod yaml k8s dari dag Airflow menggunakan KubernetesPodOperator.
- Oozie to Airflow - Alat untuk dengan mudah mengkonversi antara alur kerja Apache Oozie dan alur kerja Apache Airflow.
- Airflow Ditto - Kerangka kerja yang dapat diperluas untuk melakukan transformasi ke DAG Aliran Udara dan mengubahnya menjadi DAG lain yang aliran-isomorfik dengan DAG asli, untuk dapat menjalankannya di lingkungan yang berbeda (misalnya di cloud yang berbeda, atau bahkan kerangka kontainer yang berbeda - Apache Spark di YARN vs Kubernetes). Dilengkapi dengan dukungan siap pakai untuk transformasi EMR-ke-HDInsight-DAG.
- gusty - Buat DAG menggunakan sejumlah file YAML, Python, Jupyter Notebook, atau R Markdown yang mewakili tugas individual di DAG. gusty juga mengonfigurasi dependensi, DAG, dan Grup Tugas, mendukung fitur untuk operator lokal Anda, dan banyak lagi. Demo yang sepenuhnya terkontainer tersedia di sini.
- Meltano - Alat ELT open source, self-host, CLI-first, dapat di-debug, dan dapat diperluas yang menggunakan Singer untuk ekstraksi dan pemuatan, memanfaatkan dbt untuk transformasi, dan terintegrasi dengan Airflow untuk orkestrasi.
- Pemeriksaan DAG - Pemeriksaan dag terdiri dari pemeriksaan yang dapat membantu Anda dalam memelihara instance Apache Airflow Anda.
- Plugin Airflow DVC - Plugin untuk sistem kontrol versi sumber terbuka untuk ilmu data dan pipeline Machine Learning - DVC.
- Airflow Vars - CLI untuk manajemen variabel, dibuat untuk CD-Pipeline untuk memungkinkan manajemen variabel yang kuat dan aman.
- prioritas aliran udara - Tag Prioritas (P1, P2, dll) untuk DAG Aliran Udara dengan peringatan otomatis ke Datadog, New Relic, Slack, Discord, dan banyak lagi
- airflow-config - Sistem konfigurasi berbasis Pydantic / Hydra untuk argumen DAG dan Task
- airflow-supervisor - Integrasi supervisor yang mudah digunakan untuk DAG yang berjalan lama atau "selalu aktif".
Pertemuan
- Pertemuan Aliran Udara Apache Amsterdam
- Pertemuan Aliran Udara Apache Bangalore
- Pertemuan Aliran Udara Apache Bay Area
- Pertemuan Aliran Udara Apache London
- Pertemuan Aliran Udara Apache Melbourne
- Pertemuan Aliran Udara Apache Kota New York
- Pertemuan Aliran Udara Apache Paris
- Pertemuan Aliran Udara Apache Portland
- Pertemuan Aliran Udara Apache Tokyo
- Pertemuan Aliran Udara Apache Warsawa
Penyedia Aliran Udara sebagai layanan Komersial
- Google Cloud Composer - Google Cloud Composer adalah layanan terkelola yang dibangun di atas Google Cloud dan Airflow.
- Qubole - Qubole terutama dikenal sebagai perusahaan layanan dan dukungan untuk Apache Hive, tetapi juga menyediakan Airflow sebagai komponen platformnya.
- Astronomer.io - Astronomer menyediakan solusi siklus hidup ETL yang lengkap dan tampaknya sepenuhnya fokus pada penyediaan produk berbasis Airflow.
- AWS MWAA - Amazon Managed Workflows for Apache Airflow (MWAA) adalah layanan orkestrasi terkelola untuk Apache Airflow yang memudahkan penyiapan dan pengoperasian pipeline data end-to-end di cloud dalam skala besar.
Sumber daya Cloud Composer
Bagian ini berisi artikel yang berlaku untuk Cloud Composer — layanan yang dibuat oleh Google Cloud berdasarkan Apache Airflow. Trik dan solusi dijelaskan di sini yang ditujukan untuk Cloud Composer, tetapi mungkin berlaku untuk vanilla Airflow.
- Mengaktifkan Penskalaan Otomatis di Google Cloud Composer - Tingkatkan penerapan Cloud Composer Anda sekaligus menghemat sejumlah biaya selama periode tidak aktif.
- Skalakan lingkungan Komposer Anda bersama dengan bisnis Anda - Arsitektur Celery Executor dan cara untuk memastikan kinerja penjadwal yang tinggi.
- pianka.sh - Perintah tidak ada di alat gcloud. Alat ini memfasilitasi beberapa tugas administratif.
- Cara Penskalaan yang Lebih Cerdas Dengan Penjadwal Aliran Udara Komposer di GKE - Roy Berkowitz membahas penggunaan node yang lebih efektif di layanan Cloud Composer.
- Lebih baik jika digabungkan: mengatur pipeline Data Fusion Anda dengan Cloud Composer - Rachael Deacon-Smith memberikan gambaran umum tentang operator untuk kasus penggunaan Datafusion di Cloud Composer.
Sumber daya non-Inggris
- Dokumentasi Aliran Udara-Cina - (??Cina) Apachecn telah menerjemahkan dokumentasi resmi Aliran Udara.
- Gestion de Tâches avec Apache Airflow - (??Prancis) Nicolas Crocfer - Ikhtisar Airflow, konsep dasar dan cara menulis serta memicu DAG.
- Airflowはすごいぞ!100行未満で本格的なデータパイプライン - (??Jepang) Hank Ehly memberikan pengenalan komprehensif tentang konsep utama Airflow, dan mendemonstrasikan cara membuat pipeline data dalam kurang dari 100 baris kode.
- apache airflow 複数worker構成のalpine版docker imageを作った - (??Jepang) Akio Ohta menelusuri image Docker miliknya untuk menerapkan sistem Airflow berbasis Alpine.
- AirflowのタスクログをS3に保存する方法 - (??Jepang) Hank Ehly menunjukkan langkah demi langkah cara mengonfigurasi pengiriman log tugas ke AWS S3.
- 【徹底解説】Airflow Fluentd Elasticsearch Docker の連携方法 - (??Jepang) Hank Ehly menjelaskan cara menangani log tugas pekerja dengan Fluentd, Elasticsearch, dan Docker.
- Apache Airflow – Kaikki Mitä Meillä On, Lähtee Dageista - (??Finlandia) Ikhtisar Olli Iivonen tentang Airflow, konsep dan penggunaan Airflow di Solita.
- Aliran Udara - Automatizando seu fluxo de trabalho - (??Portugis) Ikhtisar Gilson Filho tentang Aliran Udara, konsep dan penggunaan dasar.
- Panduan Dasar Apache Airflow - (??Bahasa Indonesia) Imam Digmi - Ikhtisar Airflow, konsep, penggunaan dasar dengan use case.
- Aliran Udara - (??Vietnam) Duyet Le - Ikhtisar Aliran Udara, konsep, penggunaan dasar dengan kasus penggunaan.
- Postingan Blog China Airflow Michael Yang - Postingan blog China Michael Yang tentang rekayasa data dengan Apache Airflow, menyimpulkan tutorial dasar dan keterampilan pengembangan.
Contoh proyek
- Pipeline Set Data Publik Google Cloud Platform - Arsitektur pipeline data asli cloud untuk memasukkan set data ke Program Set Data Publik Google Cloud.
- DAG Tim Data GitLab - Beberapa DAG digunakan untuk membangun analitik untuk platform GitLab.
- deploy-airflow-on-ecs-fargate - Terapkan ke Amazon ECS Fargate. Mendemonstrasikan berbagai fitur dan konfigurasi, seperti penskalaan otomatis pekerja ke nol, logging jarak jauh S3, dan manajemen rahasia.
Lisensi
Sedapat mungkin berdasarkan hukum, Jakob Homan telah melepaskan semua hak cipta dan hak terkait atau terkait atas karya ini.