Apache DolphinScheduler (incubadora, anteriormente EasyScheduler) es un sistema de programación de tareas de flujo de trabajo distribuido de big data. Resuelve principalmente los problemas de dependencias complejas en el procesamiento ETL durante el proceso de investigación y desarrollo de big data, pero no puede monitorear intuitivamente el estado de salud de las tareas. DolphinScheduler ensambla tareas en forma de transmisión DAG y puede monitorear el estado de ejecución de las tareas en tiempo real. También admite operaciones como reintentar, recuperar tareas fallidas de nodos designados, pausar y finalizar tareas.
Características de diseño: Un sistema de programación de tareas de flujo de trabajo DAG visual distribuido y fácilmente escalable. Comprometido a resolver las complejas dependencias en el proceso de procesamiento de datos, de modo que el sistema de programación se pueda utilizar de inmediato en el proceso de procesamiento de datos. Sus principales objetivos son los siguientes
1. Utilice un diagrama DAG para asociar tareas de acuerdo con las dependencias de las tareas, que puede monitorear visualmente el estado de ejecución de las tareas en tiempo real.
2. Admite una variedad de tipos de tareas: Shell, MR, Spark, SQL (mysql, postgresql, hive, sparksql), Python, Sub_Process, Procedimiento, etc.
3. Admite programación programada de flujo de trabajo, programación de dependencias, programación manual, pausa/detención/reanudación manual, y también admite operaciones como reintento/alarma fallidos, recuperación fallida de nodos específicos y tareas de finalización.
4. Admite prioridad de flujo de trabajo, prioridad de tarea, conmutación por error de tarea y alarma/fallo de tiempo de espera de tarea
5. Admite parámetros globales del flujo de trabajo y configuraciones de parámetros personalizados de nodos
6. Admite la carga/descarga en línea y la gestión de archivos de recursos, y admite la creación y edición de archivos en línea.
7. Admite visualización y desplazamiento en línea de registros de tareas, descarga de registros en línea, etc.
8. Implementar el clúster HA y lograr la descentralización del clúster maestro y del clúster trabajador a través de Zookeeper
9. Admite visualización en línea de la carga, la memoria y la CPU de la CPU Master/Worker
10. Admite visualización de árbol de historial de ejecución de flujo de trabajo/diagrama de Gantt, estadísticas de estado de tareas y estadísticas de estado de procesos.
11. Número de complemento de apoyo
12. Admite multiinquilino
13. Apoyar la internacionalización
14. Hay más esperando que los socios exploren