Apache DolphinScheduler (инкубатор, ранее EasyScheduler) — это система планирования задач распределенных рабочих процессов для больших данных. Она в основном решает проблемы сложных зависимостей при обработке ETL в процессе исследования и разработки больших данных, но не может интуитивно отслеживать состояние задач. DolphinScheduler собирает задачи в потоковом режиме DAG и может отслеживать состояние выполнения задач в режиме реального времени. Он также поддерживает такие операции, как повторная попытка, восстановление неудачных задач из назначенных узлов, приостановка и уничтожение задач.
Особенности конструкции: Распределенная и легко масштабируемая визуальная система планирования задач рабочего процесса DAG. Стремится решить сложные зависимости в процессе обработки данных, чтобы систему планирования можно было использовать в процессе обработки данных «из коробки». Его основные цели заключаются в следующем
1. Используйте диаграмму DAG для связывания задач в соответствии с зависимостями задач, что позволяет визуально отслеживать состояние выполнения задач в режиме реального времени.
2. Поддерживает различные типы задач: Shell, MR, Spark, SQL (mysql, postgresql, hive, sparksql), Python, Sub_Process, процедуры и т. д.
3. Поддерживает планирование рабочего процесса по расписанию, планирование зависимостей, планирование вручную, ручную паузу/остановку/возобновление, а также поддерживает такие операции, как неудачная повторная попытка/сигнал тревоги, неудачное восстановление с указанных узлов и задачи уничтожения.
4. Поддержка приоритета рабочего процесса, приоритета задачи, аварийного переключения задачи и тревоги/сбоя тайм-аута задачи.
5. Поддержка глобальных параметров рабочего процесса и настроек пользовательских параметров узла.
6. Поддержка онлайн-загрузки/выгрузки и управления файлами ресурсов, а также поддержка онлайн-создания и редактирования файлов.
7. Поддержка онлайн-просмотра и прокрутки журналов задач, онлайн-загрузки журналов и т. д.
8. Внедрить кластер высокой доступности и добиться децентрализации мастер-кластера и рабочего кластера с помощью Zookeeper.
9. Поддержка онлайн-просмотра загрузки главного/рабочего процессора, памяти и процессора.
10. Поддержка отображения дерева истории рабочего процесса/диаграммы Ганта, статистики состояния задач и статистики состояния процесса.
11. Поддержка дополнительного номера
12. Поддержка мультиарендности
13. Поддержка интернационализации
14. Партнерам предстоит изучить еще больше