Apache DolphinScheduler (incubadora, anteriormente EasyScheduler) é um sistema de agendamento de tarefas de fluxo de trabalho distribuído de big data. Ele resolve principalmente os problemas de dependências complexas no processamento de ETL durante o processo de pesquisa e desenvolvimento de big data, mas não pode monitorar intuitivamente o status de integridade das tarefas. DolphinScheduler monta tarefas em streaming DAG e pode monitorar o status de execução das tarefas em tempo real. Ele também oferece suporte a operações como nova tentativa, recuperação de tarefas com falha de nós designados, pausa e eliminação de tarefas.
Recursos de design: Um sistema de agendamento de tarefas de fluxo de trabalho DAG visual distribuído e facilmente escalonável. Comprometido em resolver as intrincadas dependências no processo de processamento de dados, para que o sistema de agendamento possa ser usado imediatamente no processo de processamento de dados. Seus principais objetivos são os seguintes
1. Use um diagrama DAG para associar tarefas de acordo com as dependências da tarefa, que pode monitorar visualmente o status de execução das tarefas em tempo real.
2. Suporta uma variedade de tipos de tarefas: Shell, MR, Spark, SQL (mysql, postgresql, hive, sparksql), Python, Sub_Process, Procedure, etc.
3. Suporta agendamento agendado de fluxo de trabalho, agendamento de dependência, agendamento manual, pausa/parada/retomada manual e também oferece suporte a operações como nova tentativa/alarme com falha, recuperação com falha de nós especificados e tarefas de eliminação.
4. Suporta prioridade de fluxo de trabalho, prioridade de tarefa, failover de tarefa e alarme/falha de tempo limite de tarefa
5. Suporta parâmetros globais de fluxo de trabalho e configurações de parâmetros personalizados de nó
6. Suporta upload/download on-line e gerenciamento de arquivos de recursos e oferece suporte à criação e edição de arquivos on-line.
7. Suporta visualização on-line e rolagem de logs de tarefas, download on-line de logs, etc.
8. Implementar cluster HA e alcançar a descentralização do cluster Master e do cluster Worker por meio do Zookeeper
9. Suporte à visualização on-line da carga, memória e CPU da CPU Master/Worker
10. Suporta fluxo de trabalho executando exibição de árvore de histórico/gráfico de Gantt, estatísticas de status de tarefa e estatísticas de status de processo.
11. Número do complemento de suporte
12. Suporte para multilocação
13. Apoiar a internacionalização
14. Há mais esperando por parceiros para explorar