Система планирования задач Big Whale — это система планирования задач распределенных вычислений, разработанная Meiyou Big Data. Она обеспечивает планирование выполнения DAG для задач пакетной обработки, таких как Spark и Flink, а также мониторинг состояния и планирование задач потоковой обработки. Обнаружение приложений с большой памятью и другие функции. Сервис разработан на основе Spring Boot 2.0 и может быть запущен после упаковки.
Экологическая подготовка
Ява 1.8+
MySQL 5.1.0+
Установить
1. Создать базу данных: большой кит
2. Запустите скрипт базы данных: big-whale.sql.
3. Настройте соответствующий пароль учетной записи базы данных и информацию SMTP в соответствии со средой Spring Boot.
4. Конфигурация: big-whale.properties.
Описание элемента конфигурации
ssh.user: имя пользователя для удаленного входа в систему SSH с разрешениями на выполнение сценариев (платформа будет использовать этого пользователя как единого пользователя для выполнения сценариев)
ssh.password: пароль пользователя для удаленного входа в систему по ssh
dingding.enabled: включить ли оповещения DingTalk
dingding.watcher-token: токен робота общедоступной группы Dingding.
Yarn.app-memory-threshold: ограничение памяти приложения Yarn (единица измерения: МБ), -1 отключает обнаружение.
Yarn.app-white-list: список белого списка приложений Yarn (память, запрошенная приложениями в списке, превышает верхний предел, и сигнал тревоги не будет выдан)
5. Измените: $FLINK_HOME/bin/flink, ссылку: flink (поскольку flink может читать только локальный пакет jar при отправке задачи, необходимо загрузить пакет jar из hdfs и заменить параметр пути к пакету jar в скрипте, когда выполнение команды отправки).
6. Упаковка: чистый пакет mvn.
запускать
1. Проверьте, занят ли порт 17070. Если да, закройте занятый процесс или измените конфигурацию номера порта проекта и переупакуйте его.
2. Скопируйте big-whale.jar в целевой каталог и выполните команду: java -jar big-whale.jar.
Начальная конфигурация
1. Открыть: http://localhost:17070.
2. Введите учетную запись admin и пароль admin.
3. Нажмите: Управление разрешениями->Управление пользователями, измените адрес электронной почты текущей учетной записи на юридический и существующий адрес электронной почты, в противном случае электронное письмо не будет отправлено.
4. Добавьте кластер
Управление кластером->Управление кластером->Новое
«Адрес управления пряжей» — это адрес веб-интерфейса Yarn ResourceManager.
«Каталог хранения пакета» — это путь к хранилищу, когда пакет загружается в кластер HDFS, например: /data/big-whale/storage.
«Поддержка пользователей прокси-сервера задач Flink», «Черный список задач потоковой обработки» и «Черный список задач пакетной обработки» — это внутренние настраиваемые правила распределения задач. Не заполняйте поля.
5. Добавить агента
Управление кластером->Управление агентами->Новое
Можно добавить несколько экземпляров (поддерживаются только IP-адреса, можно указать номера портов, значение по умолчанию — 22). При выполнении сценария экземпляр будет выбран случайным образом для выполнения. Если экземпляр недоступен, будет выбран следующий экземпляр. выбрано случайно. Выполнение завершается неудачей, когда оба недоступны.
После выбора кластера он будет одним из агентов, отправляющих задачи Spark или Flink в кластер.
6. Добавьте пользователей кластера
Управление кластером->Пользователь кластера->Добавить
Семантика этой конфигурации такова: очередь ресурсов Yarn (--queue) и пользователь-прокси (--proxy-user), которых пользователи платформы могут использовать в выбранном кластере.
7. Добавьте структуру расчета
Управление кластером->Управление->Добавить
Команды отправки разных задач Spark или Flink в одном кластере могут различаться. Например, команда отправки Spark 1.6.0 — это spark-submit, а команда отправки Spark 2.1.0 — spark2-submit.