Apache Airflow ที่ยอดเยี่ยม
นี่คือรายการทรัพยากรที่รวบรวมไว้เกี่ยวกับ Apache Airflow โปรดอย่าลังเลที่จะมีส่วนร่วมกับรายการใด ๆ ที่ควรรวมไว้ โดยทั่วไปรายการต่างๆ จะถูกเพิ่มที่ด้านบนของแต่ละส่วน เพื่อให้รายการใหม่ๆ โดดเด่นยิ่งขึ้น
สารบัญ
- ลิงค์สำคัญ
- โซลูชันการปรับใช้การไหลเวียนของอากาศ
- การแนะนำและบทช่วยสอน
- วิดีโอการประชุมสุดยอด Airflow Summit 2020
- แนวทางปฏิบัติที่ดีที่สุด บทเรียนที่ได้รับ และกรณีการใช้งานที่ยอดเยี่ยม
- หนังสือ บล็อก พ็อดคาสท์ และอื่นๆ
- การนำเสนอสไลด์และวิดีโอออนไลน์
- ห้องสมุด, Hooks, ยูทิลิตี้
- มีตติ้ง
- ผู้ให้บริการ Airflow-as-a-service เชิงพาณิชย์
- ทรัพยากร Cloud Composer
- แหล่งข้อมูลที่ไม่ใช่ภาษาอังกฤษ
ลิงค์สำคัญ
- ซอร์สโค้ด (รีลีสเสถียรล่าสุด 1.10.12)
- เอกสารประกอบ (รวมถึงเว็บไซต์อย่างเป็นทางการด้วย)
- หน้ารวมพล
- พื้นที่ทำงานหย่อน
โซลูชันการปรับใช้การไหลเวียนของอากาศ
- การติดตั้ง Airflow บน IBM Cloud - การใช้งานที่รวดเร็วและง่ายดายบน IBM Cloud ด้วย IBM Bitnami Charts
- สามวิธีในการเรียกใช้ Airflow บน Kubernetes - Tim van de Keer อธิบายวิธีการต่างๆ มากมายในการปรับใช้ Airflow บน Kubernetes
- การปรับใช้ Apache Airflow Multi-Tier ฟรีบน Azure - เทมเพลต Azure Resource Manager (ARM) ฟรีโดย Bitnami มอบโซลูชันเพียงคลิกเดียวสำหรับการปรับใช้ Airflow บน Azure สำหรับกรณีการใช้งานจริง
- KubernetesExecutor Helm Chart - แผนภูมิ Helm แบบลีนโดยใช้ KubernetesExecutor เพื่อประสบการณ์ดั้งเดิมของ k8s ที่มากขึ้นและอิมเมจ Docker ของ KubernetesExecutor เสริม
- แผนภูมิ Helm ของคื่นฉ่ายที่เสถียร - แผนภูมิ Helm ที่คัดสรรแล้วในพื้นที่เก็บข้อมูลแผนภูมิที่มีเสถียรภาพอย่างเป็นทางการ
- รูปภาพ Docker ของ Puckel - อิมเมจ Docker ที่สร้างขึ้นอย่างดีของ @Puckel_ ได้กลายเป็นฐานสำหรับการติดตั้ง Airflow จำนวนมาก มีการอัปเดตเป็นประจำและติดตามการเผยแพร่ Apache อย่างเป็นทางการอย่างใกล้ชิด
- ตัวดำเนินการแบบกำหนดเองของ Kubernetes สำหรับการปรับใช้ Airflow - ตัวควบคุม Kubernetes แบบกำหนดเอง (หรือที่เรียกว่ารูปแบบตัวดำเนินการ) สำหรับการปรับใช้ Airflow บน Kubernetes
- airflow-pipeline - คอนเทนเนอร์ Airflow Docker ที่กำหนดค่าไว้ล่วงหน้าสำหรับ Spark และ Hadoop สามารถดึงนักเทียบท่าได้ที่
datagovsg/airflow-pipeline
- aws-airflow-stack - การปรับใช้คลัสเตอร์ Airflow บน AWS พร้อม CeleryExecutor ปรับใช้หลังจากคลิกไม่กี่ครั้งด้วย CloudFormation
- kube-airflow - พื้นที่เก็บข้อมูลนี้มีทั้งอิมเมจ Airflow Docker (ซึ่งดูเหมือนว่าจะอิงตามงานของ Puckel) และคำจำกัดความของบริการ Kubernetes พื้นที่เก็บข้อมูลของ momoshu ยังไม่ได้รับการอัปเดตเมื่อเร็ว ๆ นี้ แต่มีทางแยกมากมายที่อาจอิงตามการเปิดตัวล่าสุด
- airflow-on-kubernetes - คำแนะนำเกี่ยวกับทรัพยากร สคริปต์ และโปรเจ็กต์ที่เกี่ยวข้องทั้งหมดที่เกี่ยวข้องกับการใช้งาน Airflow บน Kubernetes
- airflow-k8s-executor-on-GKE - บทช่วยสอนโดยละเอียดเพื่อรับสภาพแวดล้อมตัวดำเนินการ kubernetes ของการไหลเวียนของอากาศที่ปรับขนาดได้และมีการบำรุงรักษาต่ำซึ่งปรับใช้บน Google Kubernetes Engine พร้อมการควบคุม
- airflow-cookbook - ตำราเชฟสำหรับการปรับใช้ Airflow
- การเรียกใช้ Airflow บน Apache Mesos - บล็อกที่อธิบายวิธีกำหนดค่า Mesos ให้รันส่วนประกอบ Airflow ทั้งหมด
- การรวม Apache Airflow เข้ากับ Apache Ambari - Mykola Mykhalov อธิบายโดยใช้ Apache Ambari เพื่อกำหนดค่าและปรับใช้อินสแตนซ์ Airflow
- แพลตฟอร์มนักดาราศาสตร์ - Apache Airflow เป็นบริการบน Kubernetes สำหรับข้อมูลเพิ่มเติม โปรดไปที่ https://www.astronomer.io
- อิมเมจ Docker Bitnami Airflow - อิมเมจ Docker ที่ปลอดภัยและทันสมัยสำหรับ Airflow ที่ดูแลโดย Bitnami
- อิมเมจ Docker ของ Bitnami Airflow Scheduler - อิมเมจ Docker ที่ปลอดภัยและทันสมัยสำหรับ Airflow Scheduler ที่ดูแลโดย Bitnami
- อิมเมจ Docker ของ Bitnami Airflow Worker - อิมเมจ Docker ที่ปลอดภัยและทันสมัยสำหรับ Airflow Worker ที่ดูแลโดย Bitnami การใช้งาน CeleryExecutor docker-compose มีอยู่ที่นี่
- แจกจ่ายและปรับใช้ Apache Airflow ผ่านไฟล์ Python PEX - ตัวอย่าง repo พร้อมขั้นตอนในการรวมกลุ่ม แจกจ่าย และปรับใช้ Apache Airflow เป็นไฟล์ PEX
- ขอแนะนำ KEDA สำหรับ Airflow - วิธีใช้ระบบตัวปรับขนาด KEDA เพื่อเปิดใช้งานการปรับขนาดอัตโนมัติของผู้ปฏิบัติงานขึ้นฉ่ายตามข้อมูลที่จัดเก็บไว้ในฐานข้อมูลเมตาดาต้าของ Airflow
- Airflow-Component - ตัวติดตั้งน้ำหนักเบาของสถาปัตยกรรมอ้างอิง Airflow-Airflow (RabbitMQ) แบบรวมศูนย์บนโหนดคอมพิวเตอร์
การแนะนำและบทช่วยสอน
- Apache Airflow Monitoring Metrics - ซีรีส์สองส่วนโดย maxcotec เกี่ยวกับวิธีที่คุณสามารถใช้ตัววัด Airflow statsd ที่มีอยู่เพื่อตรวจสอบการปรับใช้การไหลของอากาศบนแดชบอร์ด Grafana ผ่าน Prometheus เรียนรู้วิธีสร้างเมตริกที่กำหนดเองด้วย
- Introduction to Airflow - ชุดการสอนบนเว็บโดย maxcotec สำหรับผู้เริ่มต้นและผู้ใช้ระดับกลางของ Apache Airflow
- ETL พร้อม Apache Airflow สำหรับการวิเคราะห์ข้อมูลข้อมูลธุรกรรม Kimaru Thagana ครอบคลุมกรณีเชิงปฏิบัติของการทำกระบวนการ ETL โดยใช้ Apache Airflow โดยใช้ข้อมูลธุรกรรม ผู้ใช้ และผลิตภัณฑ์ของร้านค้าอีคอมเมิร์ซจำลอง ข้อมูลจะถูกให้บริการผ่าน flask API
- เริ่มสร้างไปป์ไลน์ข้อมูลที่ดีขึ้นด้วย apache Airflow 2020-ต.ค. - Naman Gupta ครอบคลุมพื้นฐานของ Airflow และแนวคิด
- เทมเพลตพื้นที่เก็บข้อมูล Airflow - พื้นที่เก็บข้อมูลสำเร็จรูปสำหรับการพัฒนาภายในเครื่องด้วย Airflow พร้อมด้วย Linting และการทดสอบ DAG และปลั๊กอินที่ถูกต้อง เพียงโคลนและรัน
make start-airflow
เพื่อเริ่มต้น! เพิ่มงาน CI เพื่อปรับใช้โค้ดของคุณ เท่านี้ก็เสร็จเรียบร้อย - วิธีที่ Apache Airflow กระจายงานให้กับพนักงาน Celery - คำอธิบายสั้นๆ เกี่ยวกับขั้นตอนที่อินสแตนซ์งานดำเนินการ ตั้งแต่การจัดกำหนดการไปจนถึงความสำเร็จ ในสถาปัตยกรรมแบบกระจาย
- ส่งประกายไฟระยะไกลไปยัง YARN ที่ทำงานบน EMR - Azhaguselvan ดำเนินการส่งงาน Spark ไปยังคลัสเตอร์ EMR ที่มีอยู่ด้วย Airflow
- การเรียกใช้ Airflow บน Apache Mesos และการติดตามผล Mesos, Airflow & Docker โดย Agraj Mangal เป็นภาพรวมโดยย่อของการเรียกใช้ Airflow บน Apache Mesos
- Dustin Stansbury จาก Quizlet ได้เขียนซีรีส์สี่ตอนซึ่งครอบคลุมสิ่งที่ผู้จัดการเวิร์กโฟลว์ทำโดยทั่วไป วิธีที่ Quizlet เลือก Airflow ทัวร์ชมแนวคิดหลักของ Airflow และวิธีที่ Quizlet ใช้ Airflow ในทางปฏิบัติในปัจจุบัน:
- Beyond CRON: บทนำเกี่ยวกับระบบการจัดการเวิร์กโฟลว์
- เหตุใด Quizlet จึงเลือก Apache Airflow เพื่อดำเนินการเวิร์กโฟลว์ข้อมูล
- ทำความเข้าใจแนวคิดหลักของ Apache Airflow
- Quizlet ใช้ Apache Airflow ในทางปฏิบัติอย่างไร
- การรวม Apache Airflow เข้ากับ Databricks - แม้ว่าบทช่วยสอนนี้จะเน้นไปที่โซลูชัน Spark ของ Databricks โดยเฉพาะ แต่ก็มีภาพรวมที่สมเหตุสมผลเกี่ยวกับพื้นฐานของ Airflow และสาธิตวิธีที่โซลูชันของบริษัทอื่นสามารถรวมเข้ากับ Airflow ได้อย่างรวดเร็วได้อย่างไร
- บทช่วยสอน Apache Airflow 2.0 - บทความนี้กล่าวถึงแนวคิดพื้นฐานที่อยู่เบื้องหลัง Airflow และอภิปรายการปัญหาที่แก้ไขได้
- การทดสอบและการดีบัก Apache Airflow - บทความอธิบายวิธีใช้การทดสอบหน่วย การเยาะเย้ย และการดีบักกับโค้ด Airflow
- เริ่มต้นพัฒนาเวิร์กโฟลว์ด้วย Apache Airflow - บทช่วยสอนเบื้องต้นสั้นๆ นี้ครอบคลุมถึงวิธีสร้างไปป์ไลน์ข้อมูลและเวิร์กโฟลว์การประมวลผลโดยใช้ DAG, ตัวดำเนินการ, เซ็นเซอร์ โดยใช้ Xcoms เพื่อสื่อสารระหว่างตัวดำเนินการ
- เริ่มต้นใช้งาน Airflow + แพลตฟอร์ม Google Cloud + Docker - การแนะนำทีละขั้นตอนโดย Jayce Jiang
- วิธีพัฒนาไปป์ไลน์ข้อมูลใน Airflow ผ่าน TDD (การพัฒนาที่ขับเคลื่อนด้วยการทดสอบ) - เรียนรู้วิธีสร้างไปป์ไลน์ข้อมูลการขายโดยใช้ TDD ทีละขั้นตอน และสุดท้ายวิธีกำหนดค่าเวิร์กโฟลว์ CI อย่างง่ายโดยใช้ Github Actions
วิดีโอการประชุมสุดยอด Airflow Summit 2020
Airflow Summit 2020 ครั้งแรกจัดขึ้นในเดือนกรกฎาคม 2020 เป็นงานออนไลน์ระดับโลกอย่างแท้จริง ซึ่งจัดโดย Airflow Meetups 9 รายการจากทั่วทุกมุมโลก (เมลเบิร์น โตเกียว บังกาลอร์ วอร์ซอ อัมสเตอร์ดัม ลอนดอน นิวยอร์ค BayArea ).
โดยมีการเสวนามากกว่า 40 รายการและเวิร์กช็อป 3 รายการ คุณสามารถดูบันทึกการพูดคุยในรูปแบบเพลย์ลิสต์ YouTube Airflow Summit 2020 หรือดูการพูดคุยรายบุคคลได้ที่นี่:
- ประเด็นสำคัญ: การไหลของอากาศทั้งในอดีตและปัจจุบัน
- Scheduler เป็นบริการ - Apache Airflow ที่ EA Digital Platform
- ประเด็นสำคัญ: บริษัทขนาดใหญ่ใช้ Airflow สำหรับไปป์ไลน์ ML และ ETL อย่างไร
- ข้อมูล DAG ที่มีเชื้อสายเพื่อความสนุกสนานและผลกำไร
- Airflow บน Kubernetes: จัดเวิร์กโฟลว์ของคุณให้เป็นคอนเทนเนอร์
- การไหลของข้อมูลด้วย Airflow @ PayPal
- ขั้นตอนการทำงานข้อมูลที่เป็นประชาธิปไตยในวงกว้าง
- การย้ายงาน Spark ที่ใช้ Airflow ไปยัง Kubernetes - ด้วยวิธีดั้งเดิม
- ประเด็นสำคัญ: อนาคตของการไหลเวียนของอากาศ
- เรียกใช้ Airflow DAGs อย่างปลอดภัย
- ประเด็นสำคัญ: การทำให้ Airflow เป็นโครงการที่ยั่งยืนผ่าน D&I
- Airflow CI/CD: Github ไปยัง Cloud Composer (อย่างปลอดภัย)
- Apache Superset ขั้นสูงสำหรับวิศวกรข้อมูล
- การสาธิต: การลดบรรทัด โปรแกรมแก้ไข DAG แบบเห็นภาพ
- AIP-31: คำจำกัดความ DAG การทำงานของการไหลเวียนของอากาศ
- การขับขี่อัตโนมัติด้วย Airflow
- จาก cron สู่ Airflow บน Kubernetes: เรื่องราวสตาร์ทอัพ
- บรรลุความสามารถในการสังเกตการไหลของอากาศ
- การเรียนรู้ของเครื่องด้วย Apache Airflow
- Airflow: ตัวละครสัตว์ร้ายในโลกของเกม
- การพึ่งพา Cross-DAG ที่มีประสิทธิภาพ
- สิ่งที่โอเพ่นซอร์สสอนเราเกี่ยวกับธุรกิจ
- ลำดับชั้นความต้องการทางวิศวกรรมข้อมูล
- การสร้างไปป์ไลน์ ELT ที่นำมาใช้ซ้ำได้และเชื่อถือได้ (แนวทางแบบเทมเพลต)
- การทดสอบเวิร์กโฟลว์ Airflow - ตรวจสอบให้แน่ใจว่า DAG ของคุณทำงานก่อนเริ่มใช้งานจริง
- การเพิ่มตัวดำเนินการให้กับ Airflow: ข้อยกเว้นของผู้สนับสนุนล้น
- การโยกย้ายไปยังผู้ให้บริการ backport ของ Airflow
- จากศูนย์สู่การไหลเวียนของอากาศ: การบูตแพลตฟอร์ม ML
- Airflow เป็นคู่ที่สมบูรณ์แบบในไปป์ไลน์การวิเคราะห์ของเรา
- Airflow ที่ Société Générale : โซลูชันการจัดการโอเพ่นซอร์สในสภาพแวดล้อมของธนาคาร
- Airflow เป็นระบบเวิร์กโฟลว์เจเนอเรชันถัดไปที่ Pinterest
- ปรับปรุงประสบการณ์ผู้ใช้ของ Airflow
- สอนเทคนิคใหม่ของ DAG เก่า
- ถามฉันอะไรกับสมาชิก Airflow
- การใช้ Airflow เพื่อเร่งการพัฒนาเครื่องมือที่ใช้ข้อมูลจำนวนมาก
- ไปป์ไลน์บนไปป์ไลน์: เวิร์กโฟลว์ CI/CD แบบ Agile สำหรับ Airflow DAG
- อิมเมจ Docker การผลิตสำหรับ Apache Airflow
- Airflow เป็นเครื่องมือ ETL ที่ยืดหยุ่น
- เราจะให้เหตุผลอย่างไรเกี่ยวกับความน่าเชื่อถือของไปป์ไลน์ข้อมูลของเราใน Wrike
- บรรลุความสามารถในการสังเกตการไหลของอากาศด้วย Databand
- จาก S3 สู่ BigQuery - วิธีที่ผู้ใช้ Airflow ครั้งแรกใช้งานไปป์ไลน์ข้อมูลได้สำเร็จ
แนวทางปฏิบัติที่ดีที่สุด บทเรียนที่ได้รับ และกรณีการใช้งานที่ยอดเยี่ยม
- วิธีใช้ DuckDB กับ Apache Airflow ให้ดีที่สุด - เคล็ดลับในการรวม DuckDB เข้ากับงาน Airflow
- การจัดการแพ็คเกจ Airflow Dag Python - การจัดการการขึ้นต่อกันของแพ็คเกจ python ในกว่า 100 dags อาจกลายเป็นเรื่องเจ็บปวดได้ เป็นการยากที่จะติดตามว่าแพ็คเกจใดบ้างที่ dag ใช้งาน และยากที่จะล้างข้อมูลระหว่างการลบ/อัปเกรด DAG เรียนรู้ว่า KubernetesPodOperator และ DockerOperator สามารถแก้ไขปัญหานี้ได้อย่างไร
- การจัดการและการกำหนดเวอร์ชัน Airflow Dag - จัดการกระบวนการเผยแพร่ DAG อย่างมีประสิทธิภาพโดยใช้ Git Submodules
- การทดสอบการไหลของอากาศ ตอนที่ 2 - Chandu Kavar และ Sarang Shinde ได้อธิบายการทดสอบบูรณาการและการทดสอบไปป์ไลน์ตั้งแต่ต้นทางถึงปลายทาง
- การอัปเกรดและปรับขนาดการไหลเวียนของอากาศที่ Robinhood - Abishek Ray อธิบายว่า Robinhood จัดการกับการอัปเกรด Airflow ที่ใช้งานจริงในขณะที่ลดเวลาหยุดทำงานให้เหลือน้อยที่สุดได้อย่างไร
- เราทุกคนใช้ Airflow ในทางที่ผิดและวิธีแก้ปัญหา - Jessica Laughlin จาก Bluecore แบ่งปันปัญหาทางวิศวกรรมสามประการที่เกี่ยวข้องกับการออกแบบ Airflow และวิธีแก้ปัญหาโดยใช้ KubernetesPodOperator ในรูปแบบการออกแบบสองรูปแบบ
- การเริ่มต้นใช้งาน Data Lineage - Germain Tanguy จาก Dailymotion แบ่งปันต้นแบบสายข้อมูลที่รวมเข้ากับ Apache Airflow
- การทำงานร่วมกันระหว่างวิศวกรข้อมูล นักวิเคราะห์ข้อมูล และนักวิทยาศาสตร์ข้อมูล - Germain Tanguy จาก Dailymotion แบ่งปันวิธีการเผยแพร่ในการผลิตอย่างมีประสิทธิภาพโดยความร่วมมือกับ Apache Airflow
- การใช้ Docker Operator ของ Apache Airflow กับ Container Repository ของ Amazon - Brian Campbell แห่ง Lucid มีเคล็ดลับในการผสานรวมบริการ ECR ของ AWS เข้ากับ DockerOperator ของ Airflow
- Airflow: เคล็ดลับ เทคนิค และแนวทางปฏิบัติที่ดีที่สุดที่ไม่ค่อยมีใครรู้จัก - Kaxil Naik ได้อธิบายเคล็ดลับและแนวทางปฏิบัติที่ดีที่สุดเกี่ยวกับการใช้ Airflow ที่ไม่ค่อยมีคนรู้จักแต่มีประโยชน์มาก
- boundary-layer: Declarative Airflow Workflows - Kevin McHale ได้อธิบายขอบเขตของโปรเจ็กต์โอเพ่นซอร์ส boundary-layer ซึ่งสร้าง dag การไหลของอากาศด้วยเวิร์กโฟลว์ที่ประกาศ
- การทดสอบการไหลของอากาศ ตอนที่ 1 - Chandu Kavar ได้อธิบายการทดสอบประเภทต่างๆ ใน Airflow ประกอบด้วยการทดสอบการตรวจสอบความถูกต้องของ DAG การทดสอบคำจำกัดความของ DAG และการทดสอบหน่วย
- การปรับปรุงความปลอดภัยของ UI ของ Airflow - Joy Gao จาก WePay แจกแจงความต้องการการควบคุมการเข้าถึงตามบทบาท (RBAC) และวิธีที่เธอแนะนำสิ่งนี้กับ Airflow
- วิธีสร้างเวิร์กโฟลว์ใน Apache Airflow เพื่อติดตามการระบาดของโรคในอินเดีย - Vinayak Mehta ให้รายละเอียดว่า SocialCops ใช้ Airflow เพื่อขูดกระทรวงสาธารณสุขและกิจการครอบครัวของอินเดียเพื่อสร้างข้อมูลที่ได้รับเกี่ยวกับการระบาดของโรคที่อาจเกิดขึ้นได้อย่างไร
- Airflow, วิศวกรรมข้อมูลเมตา และแพลตฟอร์มข้อมูลสำหรับประชาธิปไตยที่ใหญ่ที่สุดในโลก - Vinayak Mehta พูดถึงการระบุรูปแบบวิศวกรรมข้อมูล (วิศวกรรมข้อมูลเมตา) เพื่อสร้าง DAG โดยอัตโนมัติ และวิธีที่ช่วย SocialCops ขับเคลื่อน DISHA ซึ่งเป็นแพลตฟอร์มข้อมูลระดับชาติที่สมาชิกสภาผู้แทนราษฎรชาวอินเดียและ MLA ติดตามความคืบหน้าของแผนระดับชาติ 42 แผน
- บทเรียนที่ได้รับในขณะที่ Airflow-ing และ Airflow ตอนที่ 2: บทเรียนที่ได้เรียนรู้ - Nehil Jain ได้เขียนซีรีส์สองตอนที่ครอบคลุมคุณค่าของตัวกำหนดเวลาเวิร์กโฟลว์ แนวทางปฏิบัติที่ดีที่สุด และข้อผิดพลาดที่เขาพบขณะทำงานกับ Airflow บทความที่สองโดยเฉพาะมีเคล็ดลับในการผลิตมากมาย
- เหตุใด Robinhood จึงใช้ Airflow - Vineet Goel อธิบายว่าเหตุใดแพลตฟอร์มการซื้อขายทางการเงิน Robinhood จึงเลือก Airflow แทนตัวกำหนดเวลาการทำงานอื่น
- สิ่งที่เราเรียนรู้จากการย้ายจาก Cron ไปยัง Airflow - Katie Macias อธิบายการเดินทางของวิศวกรรมข้อมูลของ VideoAmp จาก cron สู่ Airflow
- เบื้องหลัง: การสร้าง AIR ที่ Qubole - Sreenath Kamath และ Rajat Venkatesh เขียนเกี่ยวกับการสร้างแพลตฟอร์มการค้นพบข้อมูล ข้อมูลเชิงลึก และคำแนะนำของ Qubole บน Airflow
- Airflow: ทำไมไม่มีอะไรทำงาน? - SubDagOperator ของ TL;DR Airflow ทำให้เกิดการหยุดชะงักโดย Jessica Laughlin - เจาะลึกในการแก้ไขปัญหา Airflow DAG ที่เป็นปัญหา พร้อมเคล็ดลับดีๆ เกี่ยวกับวิธีการวินิจฉัยปัญหา
- Apache Airflow เป็นตัวกำหนดเวลาภายนอกสำหรับระบบแบบกระจาย - Arunkumar แนะนำให้ใช้ Airflow เป็นตัวกำหนดเวลาภายนอกอย่างง่ายสำหรับระบบแบบกระจาย
- วิธีที่ Sift ฝึกฝนโมเดลนับพันโดยใช้ Apache Airflow - สรุปกลยุทธ์การปรับใช้ของ Sift Science สำหรับไปป์ไลน์โมเดลการเรียนรู้ของเครื่อง
- Apache Airflow ที่ Pandora - Ace Haidrey พูดคุยถึงสาเหตุที่ Pandora เลือก Airflow และให้รายละเอียดโดยละเอียดของการปรับใช้และโครงสร้างพื้นฐานที่อยู่เบื้องหลัง
- บทเรียนการไหลเวียนของอากาศจาก Data Engineering Front ในชิคาโก - Alison Stanton แสดงรายการเคล็ดลับเพื่อหลีกเลี่ยงปัญหาในงาน Airflow
- ขุมนรกของข้อมูล: 7 แวดวงการทดสอบข้อมูลนรกด้วยการไหลของอากาศ - ทีมการวิเคราะห์ขั้นสูงของธนาคารขายส่งที่ ING ให้รายละเอียดว่าพวกเขาทรมานทดสอบ DAG ของกระแสลมก่อนใช้งานอย่างไร
- การทดสอบข้อมูลด้วยพื้นที่เก็บข้อมูล Airflow
- ผู้ตรวจสอบคุณภาพข้อมูล - Antoine Augusti อธิบายถึงเฟรมเวิร์กไดรฟ์ที่สร้างขึ้นบน Airflow เพื่อทดสอบชุดข้อมูลเพื่อความสมบูรณ์ ความสม่ำเสมอ ความทันเวลา ความเป็นเอกลักษณ์ ความถูกต้อง และความแม่นยำ
- การสร้างคลังข้อมูลของ WePay โดยใช้ BigQuery และ Airflow - Chris Riccomini ผู้ประเมินค่าไม่ได้อธิบายถึงวิธีที่ WePay ซึ่งเป็นหนึ่งในผู้ใช้รายแรกๆ ของ Airflow ผสานรวมเข้ากับสภาพแวดล้อม Google Cloud Compute ของพวกเขา
- การใช้ Apache Airflow เพื่อสร้างโครงสร้างพื้นฐานข้อมูลในภาครัฐ - แม้จะมีโทนการขายที่หนักหน่วงมาก แต่โพสต์ในบล็อกของบทความนี้จะอธิบายว่า ARGO Labs ซึ่งเป็นองค์กรข้อมูลที่ไม่แสวงหากำไร ใช้ Airflow สำหรับ ETLing ในข้อมูลภาครัฐได้อย่างไร
- ETL พร้อมการไหลเวียนของอากาศ - หลักการหลักของ ETL และตัวอย่างที่อิงจากนักเทียบท่าแบบ end-to-end หลายตัวอย่าง รวมถึง Kimball, Data Vault บน Hive และตัวอย่างที่ง่ายกว่าบางส่วน
- วิธีรวบรวมข้อมูลสำหรับ BigQuery โดยใช้ Apache Airflow - ตัวอย่างวิธีใช้ Airflow กับ Google BigQuery เพื่อขับเคลื่อนแดชบอร์ด Data Studio
- การผลิต ML ด้วยเวิร์กโฟลว์ที่ Twitter - โพสต์เชิงลึกเกี่ยวกับสาเหตุและวิธีที่ Twitter ใช้ Airflow สำหรับเวิร์กโฟลว์ ML รวมถึงตัวดำเนินการแบบกำหนดเองและ UI แบบกำหนดเองที่ฝังอยู่ในเว็บอินเทอร์เฟซของ Airflow
- การเรียกใช้ Apache Airflow ที่ Lyft - ให้ภาพรวมเกี่ยวกับวิธีการที่ Lyft ใช้งาน Apache Airflow ในการผลิต (การตรวจสอบ การปรับแต่ง ฯลฯ)
- การปรับใช้ Apache Airflow ใน Azure เพื่อสร้างและเรียกใช้ไปป์ไลน์ข้อมูล - พูดถึงการใช้งาน Airflow บน Azure
- The Zen of Python และ Apache Airflow - โพสต์ในบล็อกเกี่ยวกับวิธีการนำ Zen of Python ไปใช้กับโค้ด Airflow
- การรักษาความปลอดภัย Apache Airflow UI ด้วยการเข้าถึงระดับ DAG - โพสต์ในบล็อกเกี่ยวกับการเข้าถึงระดับ Airflow DAG และวิธีที่ Lyft ใช้งาน
- การอัพเกรด Airflow โดยมีเวลาหยุดทำงานเป็นศูนย์ - บทความโดยละเอียดเกี่ยวกับวิธีปรับใช้ Airflow โดยมีเวลาหยุดทำงานเป็นศูนย์
- การสร้างแพลตฟอร์มไปป์ไลน์ ETL ระดับการผลิตโดยใช้ Apache Airflow - โพสต์นี้จะอธิบายวิธีที่ทีมผู้บริหารระบบที่ Cerner ใช้ Airflow
- Bare minimal Airflow บน Kubernetes (Local, EKS, AKS) - บทความเกี่ยวกับการปรับใช้ Airflow บน Kubernetes, AWS EKS และ Azure AKS ภายในพร้อมการตั้งค่าขั้นต่ำ
- การแยกย่อย Airflow DAG monorepo - โพสต์นี้อธิบายวิธีสนับสนุนการจัดการ Airflow DAG จาก repos git หลายรายการผ่าน S3
- การปรับปรุงประสิทธิภาพของ Apache Airflow Scheduler - เรื่องราวของการผจญภัยที่ทำให้ Databand เร่งความเร็วในการแยกวิเคราะห์ DAG 10 เท่า
- SSENSE ใช้ Apache Airflow เพื่อทำ Data Lineage บน AWS อย่างไร - สำรวจธีมพื้นฐานของการออกแบบสถาปัตยกรรมและการควบคุม Data Lake บน AWS โดยใช้ Apache Arflow
- การตรวจสอบการไหลของอากาศด้วย Prometheus, StatsD และ Grafana - คำแนะนำเกี่ยวกับวิธีการตั้งค่าแดชบอร์ดการปฏิบัติงานไปยังคลัสเตอร์การผลิตโดย Databand และรับการมองเห็นในระดับสูงบน Airflow
- การจัดระเบียบงานที่ซับซ้อนที่ Hurb ด้วย Apache Airflow - โพสต์นี้แสดงให้เห็นว่า Hurb ใช้ Apache Airflow เพื่อจัดระเบียบงานที่ซับซ้อนได้อย่างไร และวิธีที่มันใช้ประโยชน์จากการสร้างไดนามิก DAG เพื่อปรับปรุงความเร็วในการพัฒนา
- การส่งออกข้อมูลจาก CrateDB ไปยัง S3 โดยอัตโนมัติด้วย Apache Airflow บทช่วยสอนเกี่ยวกับวิธีดำเนินการสืบค้นที่เกิดซ้ำโดยอัตโนมัติใน CrateDB ด้วย Apache Airflow เช่น การส่งออกข้อมูลเป็นระยะไปยัง Amazon S3
- การใช้นโยบายการเก็บรักษาข้อมูลด้วย CrateDB และ Apache Airflow บทช่วยสอนทีละขั้นตอนเกี่ยวกับวิธีใช้นโยบายการเก็บรักษาข้อมูลอย่างมีประสิทธิภาพด้วย CrateDB และ Apache Airflow
- การนำเข้าข้อมูล NYC Taxi จาก S3 เข้าสู่ CrateDB - อธิบายวิธีสร้างไปป์ไลน์การนำเข้าฐานข้อมูลใน Airflow โดยการโหลดไฟล์ CSV จาก S3 ลงใน CrateDB
หนังสือ บล็อก พ็อดคาสท์ และอื่นๆ
- ไปป์ไลน์ข้อมูลที่มี Apache Airflow - หนังสือ Manning (เข้าถึงก่อนเดือนกันยายน 2019) เกี่ยวกับ Airflow
- The Airflow Podcast - พอดแคสต์กึ่งปกติที่พูดถึงทุกสิ่งเกี่ยวกับ Airflow
- Maxime Beauchemin - บล็อกของ Maxime เกี่ยวกับสื่อที่ให้ข้อมูลเชิงลึกเกี่ยวกับปรัชญาเบื้องหลัง Apache Airflow
- Robert Chang - บล็อกโพสต์เกี่ยวกับวิศวกรรมข้อมูลกับ Apache Airflow อธิบายเหตุผลและมีตัวอย่างในโค้ด
- การจัดการบันทึก Airflow ด้วย Kubernetes Executor - โพสต์บล็อกที่สรุปวิธีการตั้งค่าการบันทึก S3 ระยะไกลเมื่อใช้ KubernetesExecutor โดยไม่ต้องสร้างโครงสร้างพื้นฐานที่ซับซ้อน
- Airflow 2.0: ออกแบบการเขียน DAG ใหม่ - โพสต์ในบล็อกเกี่ยวกับวิธีใหม่ในการเขียน DAG ใน Airflow 2.0
- ผู้ให้บริการ Airflow 2.0 - บล็อกโพสต์เกี่ยวกับแพ็คเกจผู้ให้บริการใน Airflow 2.0
การนำเสนอสไลด์และวิดีโอออนไลน์
- 2020-ก.พ.: Apache Airflow @ Umuzi.org - Sheena O'Connell พูดคุยถึงวิธีที่ Umuzi ค่ายฝึกเทคโนโลยีในแอฟริกาใต้ใช้ Airflow
- บทช่วยสอน Apache Airflow บน YouTube - Marc Lamberti ได้สร้างชุดบทช่วยสอน YouTube ที่ครอบคลุมหลายแง่มุมของแนวคิด การกำหนดค่า และการปรับใช้ Airflow
- รูปแบบวิศวกรรมข้อมูลขั้นสูงด้วย Apache Airflow - วิดีโอการพูดคุยของ Maxime Beauchemin ที่แนะนำ Airflow สั้นๆ จากนั้นเจาะลึกกรณีการใช้งานขั้นสูงเพิ่มเติม รวมถึงการสืบค้น SQL แบบบริการตนเอง การสร้างเฟรมเวิร์กตัววัดการทดสอบ A/B และการแยกคุณสมบัติการเรียนรู้ของเครื่องทั้งหมดผ่าน Airflow สไลด์มีจำหน่ายแยกต่างหากที่นี่
- ไปป์ไลน์ข้อมูลสมัยใหม่พร้อม Apache Airflow - การบรรยายโดย Taylor Edmiston และ Andy Cooper จาก Astronomer.io ที่ Momentum Dev Con 2018 เกี่ยวกับการเริ่มต้นใช้งาน Airflow ส่วนประกอบแบบกำหนดเอง ตัวอย่าง DAG และ Astronomer Airflow CLI
- การสร้างไปป์ไลน์ข้อมูลที่ดีขึ้นโดยใช้ Apache Airflow - สไลด์จากการพูดคุยของ Sid Anand ที่ QCon 18 พร้อมภาพรวมโดยละเอียดของ Airflow และสถาปัตยกรรม
- Airflow และ Spark Streaming ที่ Astronomer - วิธีที่ Astronomer ใช้ DAG แบบไดนามิกเพื่อรันงาน Spark Streaming ด้วย Airflow
- Apache Airflow ในระบบคลาวด์: การจัดการปริมาณงานทางโปรแกรมด้วย Python - สไลด์จาก Kaxil Naik's และ Satyasheel พูดคุยที่ PyData London 18 แนะนำพื้นฐานของ Airflow และวิธีจัดเตรียมปริมาณงานบน Google Cloud Platform (GCP)
- การพัฒนาเวิร์กโฟลว์ที่หรูหราในโค้ด Python ด้วย Apache Airflow - Michał Karzyński ที่ Europython ให้คำแนะนำสั้นๆ เกี่ยวกับแนวคิด Airflow รวมถึงบทบาทของผู้จัดการเวิร์กโฟลว์, DAG และผู้ปฏิบัติงาน ลิงค์มีทั้งวีดีโอและสไลด์
- การจัดการไปป์ไลน์ข้อมูล - Ben Goldberg บรรยายเกี่ยวกับวิธีที่ SpotHero ใช้ Airflow ใน Chicago Kubernetes Meetup นอกจากนี้ Ben ยังมีสไลด์ที่สมบูรณ์มากเกี่ยวกับวิธีการเล่น Airflow ภายใน Kubernetes
- ฉันเรียนรู้การเดินทางข้ามเวลา หรือการวางท่อข้อมูลและกำหนดเวลาด้วย Airflow ได้อย่างไร - เนื้อหาที่ครอบคลุมโดย Laura Lorenz เกี่ยวกับสาเหตุที่ Airflow จึงมีความจำเป็น และ Industry Dive ใช้งานอย่างไร
- ข้อมูลเบื้องต้นเกี่ยวกับ Apache Airflow - Data Day Seattle 2016 - Sid Anand ให้ข้อมูลเบื้องต้นอย่างละเอียดเกี่ยวกับ Airflow และวิธีการใช้งานที่ Agari
- ไปป์ไลน์ข้อมูลการดำเนินงานด้วย Airflow - พบปะ Airflow เมษายน 2018 - Ananth Packkildurai พูดถึงการปรับขนาดของ Airflow Local Executor และแนวทางปฏิบัติที่ดีที่สุดในการดำเนินงานไปป์ไลน์ข้อมูลที่ Slack
- Apache Airflow ที่ WePay - Chris Riccomini พูดคุยถึงสาเหตุที่ WePay เลือก Airflow และให้รายละเอียดโดยละเอียดเกี่ยวกับการปรับใช้และโครงสร้างพื้นฐานที่อยู่เบื้องหลัง
- การไปป์ไลน์ข้อมูลที่หรูหราด้วย Apache Airflow - พูดคุยจาก Bolke de Bruin และ Fokko Driesprong ที่ PyData Amsterdam 2018 เกี่ยวกับวิธีการที่ให้ความชัดเจนใน ETL โดยใช้ Airflow
- Airflow @ Lyft - พูดคุยจาก Tao Feng ที่งานพบปะด้านการวิเคราะห์ข้อมูลขนาดใหญ่ของ SF เกี่ยวกับวิธีที่ Lyft ติดตามการทำงานของ Airflow ในการผลิต
- ไปป์ไลน์ข้อมูลที่จัดการได้ด้วย Airflow และ Kubernetes - Talk โดย Jarek Potiuk และ Szymon Przedwojski การพูดคุยเบื้องต้นเกี่ยวกับ Airflow จาก GDG Warsaw DevFest 2018
- การย้ายเวิร์กโฟลว์ Apache Oozie ไปยัง Apache Airflow - พูดคุยจาก Szymon Przedwojski จาก Airflow Bay Area Meetup มิถุนายน 2018 เกี่ยวกับเครื่องมือการย้าย Oozie-to-Airflow
- การสร้าง Data Lake ด้วย Apache Airflow - พูดคุยโดย Bas Harenslak และ Julian de Ruiter ที่งานพบปะที่ Amsterdam Apache Airflow ในเดือนกันยายน 2018 เกี่ยวกับการสร้าง Data Lake ด้วย Apache Airflow ในฐานะสไปเดอร์บนเว็บที่จัดการโฟลว์ข้อมูลทั้งหมด
- Meetup Apache Airflow ครั้งแรกในวอร์ซอ - การบันทึกแบบสตรีมสดจาก Apache Airflow Meetup ครั้งแรกในวอร์ซอในเดือนตุลาคม 2019
- สิ่งที่จะมาใน Apache Airflow 2.0 - การพูดคุยร่วมกันโดย Ash Berlin-Taylor, Kaxil Naik, Jarek Potiuk, Kamil Breguła, Daniel Ibermann และ Tomek Urbaszek ที่งาน Online NYC Meetup วันที่ 13 พฤษภาคม 2020
- Airflow Breeze - การพัฒนาและทดสอบสภาพแวดล้อมสำหรับ Apache Airflow - Screencast แสดงวิธีใช้สภาพแวดล้อม Breeze โดย Jarek Potiuk
ห้องสมุด, Hooks, ยูทิลิตี้
- Domino - Domino เป็นแพลตฟอร์มอินเทอร์เฟซผู้ใช้แบบกราฟิกแบบโอเพ่นซอร์สสำหรับการสร้างข้อมูลและเวิร์กโฟลว์การเรียนรู้ของเครื่อง (DAG) โดยไม่ต้องใช้โค้ด การลากและวางที่ใช้งานง่ายด้วยการมองเห็น นอกจากนี้ยังเป็นมาตรฐานสำหรับการเผยแพร่และแชร์โค้ด Python ของคุณ เพื่อให้ทุกคนสามารถใช้งานได้โดยอัตโนมัติใน GUI โดยตรง
- Airflow-Helper - ตั้งค่าตัวแปร Airflow การเชื่อมต่อ และพูลจากไฟล์คอนฟิกูเรชัน YAML
- AirFly - สร้าง dag.py ของ Airflow โดยอัตโนมัติทันที
- DEAfrica Airflow - ห้องสมุด Airflow ใช้โดย Digital Earth Africa ซึ่งเป็นความพยายามด้านมนุษยธรรมในการใช้ภาพถ่ายดาวเทียมของแอฟริกา
- ปลั๊กอิน Airflow - คอลเลกชันส่วนกลางของที่เก็บปลั๊กอินต่างๆ สำหรับ Airflow รวมถึง mailchimp, trello, sftp, GitHub ฯลฯ
- fileflow - การรวบรวมโมดูลเพื่อรองรับการถ่ายโอนข้อมูลขนาดใหญ่ระหว่างผู้ให้บริการ Airflow ผ่านระบบไฟล์ในเครื่องหรือ S3 วิธีนี้ช่วยแก้ไขช่องว่างที่ข้อมูลมีขนาดใหญ่เกินไปสำหรับ XCOM แต่เล็กเกินไปหรือไม่สะดวกสำหรับการโหลดในตัวดำเนินการโดยตรง สร้างโดย Industry Dive
- fairflow - ไลบรารีเพื่อแยกตัวดำเนินการของ Airflow ออกไปด้วยส่วนการทำงานที่จะแปลงข้อมูลจากผู้ปฏิบัติงานรายหนึ่งไปยังอีกรายหนึ่ง
- airflow-maintenance-dags - Clairvoyant มี repo ของ Airflow DAG ที่ดำเนินการบน Airflow เอง โดยจะล้างบิตต่างๆ ของที่เก็บข้อมูลเมตาสำรอง
- test_dags - โซลูชันที่สมบูรณ์ยิ่งขึ้นสำหรับการทดสอบความสมบูรณ์ของ DAG (Inferno ของ Circle of Data แรกเป็นอันดับแรก
- dag-factory - ไลบรารีสำหรับสร้าง Apache Airflow DAGs แบบไดนามิกจากไฟล์การกำหนดค่า YAML
- วนซ้ำ - การพัฒนาและทดสอบเวิร์กโฟลว์ Apache Airflow ในพื้นที่ซ้ำอย่างรวดเร็ว
- airflow-code-editor - ปลั๊กอินสำหรับ Apache Airflow ที่ให้คุณแก้ไข DAG ในเบราว์เซอร์
- Pylint-Airflow - ปลั๊กอิน Pylint สำหรับการวิเคราะห์โค้ดแบบคงที่บนโค้ด Airflow
- afctl - เครื่องมือ CLI ที่รวมทุกอย่างที่จำเป็นในการสร้าง จัดการ และปรับใช้โปรเจ็กต์การไหลเวียนของอากาศได้รวดเร็วและราบรื่นยิ่งขึ้น
- โปรแกรมดู Dag Dependencies - ปลั๊กอินที่สร้างมุมมองเพื่อแสดงภาพการพึ่งพาระหว่าง Airflow DAG
- ปลั๊กอิน Airflow ECR - ปลั๊กอินเพื่อรีเฟรชโทเค็นการเข้าสู่ระบบ AWS ECR ในช่วงเวลาสม่ำเสมอ สิ่งนี้มีประโยชน์เมื่อ DockerOperator จำเป็นต้องดึงรูปภาพที่โฮสต์บน ECR
- AirflowK8sDebugger - ไลบรารีสำหรับสร้างเทมเพลต yaml pod k8s จาก Airflow dag โดยใช้ KubernetesPodOperator
- Oozie to Airflow - เครื่องมือสำหรับแปลงระหว่างเวิร์กโฟลว์ Apache Oozie และเวิร์กโฟลว์ Apache Airflow ได้อย่างง่ายดาย
- Airflow Ditto - เฟรมเวิร์กที่ขยายได้เพื่อทำการแปลงเป็น Airflow DAG และแปลงเป็น DAG อื่นซึ่งเป็นโฟลว์ไอโซมอร์ฟิกด้วย DAG ดั้งเดิม เพื่อให้สามารถรันในสภาพแวดล้อมที่แตกต่างกัน (เช่น บนคลาวด์ที่แตกต่างกัน หรือแม้แต่เฟรมเวิร์กคอนเทนเนอร์ที่แตกต่างกัน - Apache Spark บน YARN กับ Kubernetes) มาพร้อมกับการสนับสนุนที่พร้อมใช้งานทันทีสำหรับการแปลง EMR-to-HDInsight-DAG
- มีลมแรง - สร้าง DAG โดยใช้ไฟล์ YAML, Python, Jupyter Notebook หรือ R Markdown จำนวนเท่าใดก็ได้ที่แสดงถึงแต่ละงานใน DAG Gusty ยังกำหนดค่าการขึ้นต่อกัน, DAG และ TaskGroups รวมถึงฟีเจอร์ที่สนับสนุนสำหรับผู้ให้บริการในพื้นที่ของคุณ และอื่นๆ อีกมากมาย มีการสาธิตแบบคอนเทนเนอร์เต็มรูปแบบที่นี่
- Meltano - เครื่องมือ ELT แบบโอเพ่นซอร์ส โฮสต์เอง ใช้ CLI เป็นหลัก แก้ไขจุดบกพร่องได้ และขยายได้ ซึ่งรวม Singer สำหรับการแตกไฟล์และการโหลด ใช้ประโยชน์จาก dbt สำหรับการเปลี่ยนแปลง และผสานรวมกับ Airflow สำหรับการเรียบเรียง
- การตรวจสอบ DAG - การตรวจสอบ dag ประกอบด้วยการตรวจสอบที่สามารถช่วยคุณในการดูแลรักษาอินสแตนซ์ Apache Airflow ของคุณได้
- ปลั๊กอิน Airflow DVC - ปลั๊กอินสำหรับระบบควบคุมเวอร์ชันโอเพ่นซอร์สสำหรับวิทยาการข้อมูลและไปป์ไลน์การเรียนรู้ของเครื่อง - DVC
- Airflow Vars - CLI สำหรับการจัดการตัวแปร สร้างขึ้นสำหรับ CD-Pipelines เพื่อให้การจัดการตัวแปรมีประสิทธิภาพและปลอดภัย
- airflow-priority - แท็กลำดับความสำคัญ (P1, P2 ฯลฯ) สำหรับ Airflow DAGs พร้อมการแจ้งเตือนอัตโนมัติไปยัง Datadog, New Relic, Slack, Discord และอีกมากมาย
- airflow-config - ระบบการกำหนดค่าที่ใช้ Pydantic / Hydra สำหรับอาร์กิวเมนต์ DAG และ Task
- airflow-supervisor - การบูรณาการผู้ควบคุมที่ใช้งานง่ายสำหรับการรันระยะยาวหรือ "เปิดตลอดเวลา" DAG
มีตติ้ง
- งานพบปะสังสรรค์ Apache Airflow ที่อัมสเตอร์ดัม
- Meetup บังกาลอร์ Apache Airflow
- Meetup ของ Apache Airflow บริเวณอ่าว
- งานพบปะสังสรรค์ Apache Airflow ในลอนดอน
- เมลเบิร์น Apache Airflow Meetup
- Meetup ของ Apache Airflow ในนครนิวยอร์ก
- มีตติ้ง Paris Apache Airflow
- งานพบปะสังสรรค์ของ Portland Apache Airflow
- งานพบปะสังสรรค์ที่โตเกียว Apache Airflow
- Meetup ของ Apache Airflow ในวอร์ซอว์
ผู้ให้บริการ Airflow-as-a-service เชิงพาณิชย์
- Google Cloud Composer - Google Cloud Composer เป็นบริการที่ได้รับการจัดการซึ่งสร้างขึ้นบน Google Cloud และ Airflow
- Qubole - Qubole ส่วนใหญ่เป็นที่รู้จักในฐานะบริษัทที่ให้บริการและสนับสนุน Apache Hive แต่ยังให้บริการ Airflow เป็นส่วนหนึ่งของแพลตฟอร์มอีกด้วย
- Astronomer.io - Astronomer นำเสนอโซลูชันวงจรการใช้งาน ETL ที่สมบูรณ์ และดูเหมือนว่าจะมุ่งเน้นไปที่การจัดหาผลิตภัณฑ์ที่ใช้ Airflow โดยสิ้นเชิง
- AWS MWAA - Amazon Managed Workflows for Apache Airflow (MWAA) เป็นบริการประสานการจัดการที่มีการจัดการสำหรับ Apache Airflow ซึ่งช่วยให้ตั้งค่าและดำเนินการไปป์ไลน์ข้อมูลตั้งแต่ต้นทางถึงปลายทางในระบบคลาวด์ในวงกว้างได้ง่ายขึ้น
ทรัพยากร Cloud Composer
ส่วนนี้ประกอบด้วยบทความที่เกี่ยวข้องกับ Cloud Composer ซึ่งเป็นบริการที่สร้างโดย Google Cloud บน Apache Airflow มีการอธิบายกลเม็ดและวิธีแก้ปัญหาไว้ที่นี่ซึ่งมีไว้สำหรับ Cloud Composer แต่อาจใช้ได้กับ vanilla Airflow
- การเปิดใช้งานการปรับขนาดอัตโนมัติใน Google Cloud Composer - เพิ่มพลังให้กับการใช้งาน Cloud Composer ของคุณพร้อมทั้งประหยัดค่าใช้จ่ายในช่วงที่ไม่มีการใช้งาน
- ปรับขนาดสภาพแวดล้อม Composer ของคุณร่วมกับธุรกิจของคุณ - สถาปัตยกรรม Celery Executor และวิธีการรับประกันประสิทธิภาพของตัวกำหนดเวลาที่สูง
- pianka.sh - คำสั่งหายไปในเครื่องมือ gcloud เครื่องมือนี้อำนวยความสะดวกในงานธุรการบางอย่าง
- วิธีที่ชาญฉลาดยิ่งขึ้นในการปรับขนาดด้วยเครื่องกำหนดเวลาการไหลของอากาศของ Composer บน GKE - Roy Berkowitz กล่าวถึงการใช้โหนดในบริการ Cloud Composer อย่างมีประสิทธิภาพมากขึ้น
- ร่วมกันได้ดียิ่งขึ้น: ประสานไปป์ไลน์ Data Fusion ของคุณด้วย Cloud Composer - Rachael Deacon-Smith ให้ภาพรวมของตัวดำเนินการสำหรับกรณีการใช้งาน Datafusion บน Cloud Composer
แหล่งข้อมูลที่ไม่ใช่ภาษาอังกฤษ
- Airflow Documentation-Thai - (??ภาษาจีน) Apachecn ได้แปลเอกสารอย่างเป็นทางการของ Airflow
- Gestion de Tâches ที่มี Apache Airflow - (ฝรั่งเศส) Nicolas Crocfer - ภาพรวมของ Airflow แนวคิดพื้นฐาน และวิธีการเขียนและทริกเกอร์ DAG
- Airflow とごいぞ!100行未満で本格的なデーTAパイプライン - (ภาษาญี่ปุ่น) Hank Ehly ให้คำแนะนำที่ครอบคลุมเกี่ยวกับแนวคิดหลักของ Airflow และสาธิตวิธีสร้างไปป์ไลน์ข้อมูลโดยใช้โค้ดน้อยกว่า 100 บรรทัด
- apache airflow 複数worker構成のalpine版docker imageを作った - (ภาษาญี่ปุ่น) Akio Ohta เดินผ่านอิมเมจ Docker ของเขาเพื่อปรับใช้ระบบ Airflow ที่ใช้ Alpine
- Airflow のタスクログをS3 に保存する方法 - (ภาษาญี่ปุ่น) Hank Ehly แสดงวิธีกำหนดค่าการส่งบันทึกงานไปยัง AWS S3 ทีละขั้นตอน
- 【徹底解説】Airflow Fluentd Elasticsearch Docker の連携方法 - (ภาษาญี่ปุ่น) Hank Ehly อธิบายวิธีจัดการบันทึกงานของผู้ปฏิบัติงานด้วย Fluentd, Elasticsearch และ Docker
- Apache Airflow – Kaikki Mitä Meillä On, Lähtee Dageista - (ฟินแลนด์) ภาพรวมของ Airflow ของ Olli Iivonen แนวคิด และการใช้งานของ Airflow ที่ Solita
- Airflow - Automatizando seu fluxo de trabalho - (โปรตุเกส) ภาพรวมของ Airflow แนวคิด และการใช้งานพื้นฐานของ Gilson Filho
- Panduan Dasar Apache Airflow - (??อินโดนีเซีย) อิหม่ามดิกมี - ภาพรวมของ Airflow แนวคิด การใช้งานพื้นฐานพร้อมกรณีการใช้งาน
- Airflow - (??เวียดนาม) Duyet Le - ภาพรวมของ Airflow แนวคิด การใช้งานพื้นฐานพร้อมกรณีการใช้งาน
- โพสต์ในบล็อกภาษาจีนของ Airflow ของ Michael Yang - บล็อกโพสต์ภาษาจีนของ Michael Yang เกี่ยวกับวิศวกรรมข้อมูลด้วย Apache Airflow สรุปบทช่วยสอนพื้นฐานและทักษะการพัฒนา
โครงการตัวอย่าง
- ไปป์ไลน์ชุดข้อมูลสาธารณะของ Google Cloud Platform - สถาปัตยกรรมไปป์ไลน์ข้อมูลแบบ Cloud-native สำหรับการเริ่มต้นชุดข้อมูลในโปรแกรมชุดข้อมูลสาธารณะของ Google Cloud
- DAG ของทีมข้อมูล GitLab - DAG จำนวนมากที่ใช้ในการสร้างการวิเคราะห์สำหรับแพลตฟอร์ม GitLab
- ปรับใช้-airflow-on-ecs-fargate - ปรับใช้กับ Amazon ECS Fargate สาธิตคุณสมบัติและการกำหนดค่าต่างๆ เช่น การปรับขนาดผู้ปฏิบัติงานให้เป็นศูนย์อัตโนมัติ การบันทึกระยะไกลของ S3 และการจัดการความลับ
ใบอนุญาต
เท่าที่เป็นไปได้ภายใต้กฎหมาย Jakob Homan ได้สละลิขสิทธิ์และสิทธิ์ที่เกี่ยวข้องหรือใกล้เคียงทั้งหมดในงานนี้