TensorFlowOnSpark обеспечивает масштабируемое глубокое обучение для кластеров Apache Hadoop и Apache Spark.
Объединив важные функции платформы глубокого обучения TensorFlow с Apache Spark и Apache Hadoop, TensorFlowOnSpark обеспечивает распределенное глубокое обучение в кластере серверов GPU и CPU.
Он позволяет как распределенное обучение TensorFlow, так и делать выводы в кластерах Spark с целью минимизировать количество изменений кода, необходимых для запуска существующих программ TensorFlow в общей сетке. Его API-интерфейс, совместимый со Spark, помогает управлять кластером TensorFlow с помощью следующих шагов:
TFNode.DataFeed
. Обратите внимание, что мы используем формат ввода-вывода Hadoop для доступа к TFRecords в HDFS.TensorFlowOnSpark был разработан Yahoo для крупномасштабного распределенного глубокого обучения в наших кластерах Hadoop в частном облаке Yahoo.
TensorFlowOnSpark предоставляет некоторые важные преимущества (см. наш блог) по сравнению с альтернативными решениями глубокого обучения.
TensorFlowOnSpark предоставляется в виде пакета pip, который можно установить на отдельные машины с помощью:
# for tensorflow>=2.0.0
pip install tensorflowonspark
# for tensorflow<2.0.0
pip install tensorflowonspark==1.4.4
Для распределенных кластеров посетите наш вики-сайт для получения подробной документации для конкретных сред, например, наших руководств по началу работы для автономного Spark с одним узлом, кластеров YARN и AWS EC2. Примечание. Из-за этой проблемы операционная система Windows в настоящее время не поддерживается.
Чтобы использовать TensorFlowOnSpark с существующим приложением TensorFlow, вы можете следовать нашему Руководству по преобразованию, чтобы описать необходимые изменения. Кроме того, на нашем вики-сайте есть указатели на некоторые презентации, в которых представлен обзор платформы.
Примечание. Поскольку TensorFlow 2.x нарушает совместимость API с TensorFlow 1.x, примеры были соответствующим образом обновлены. Если вы используете TensorFlow 1.x, вам нужно будет получить тег v1.4.4
для совместимых примеров и инструкций.
Документация API автоматически генерируется из кода.
Присоединяйтесь к группе пользователей TensorFlowOnSpark для обсуждений и вопросов. Если у вас есть вопросы, пожалуйста, ознакомьтесь с часто задаваемыми вопросами перед публикацией.
Взносы всегда приветствуются. Для получения дополнительной информации, пожалуйста, ознакомьтесь с нашим руководством по участию.
Условия использования и распространения этого программного обеспечения регулируются лицензией Apache 2.0. Условия см. в файле ЛИЦЕНЗИИ.