TensorFlowOnSpark ofrece aprendizaje profundo escalable a los clústeres de Apache Hadoop y Apache Spark.
Al combinar características destacadas del marco de aprendizaje profundo de TensorFlow con Apache Spark y Apache Hadoop, TensorFlowOnSpark permite el aprendizaje profundo distribuido en un grupo de servidores GPU y CPU.
Permite tanto el entrenamiento distribuido de TensorFlow como la inferencia en clústeres de Spark, con el objetivo de minimizar la cantidad de cambios de código necesarios para ejecutar programas de TensorFlow existentes en una red compartida. Su API compatible con Spark ayuda a administrar el clúster de TensorFlow con los siguientes pasos:
TFNode.DataFeed
. Tenga en cuenta que aprovechamos el formato de entrada/salida de Hadoop para acceder a TFRecords en HDFS.TensorFlowOnSpark fue desarrollado por Yahoo para un aprendizaje profundo distribuido a gran escala en nuestros clústeres de Hadoop en la nube privada de Yahoo.
TensorFlowOnSpark ofrece algunos beneficios importantes (consulte nuestro blog) sobre soluciones alternativas de aprendizaje profundo.
TensorFlowOnSpark se proporciona como un paquete pip, que se puede instalar en máquinas individuales a través de:
# for tensorflow>=2.0.0
pip install tensorflowonspark
# for tensorflow<2.0.0
pip install tensorflowonspark==1.4.4
Para clústeres distribuidos, consulte nuestro sitio wiki para obtener documentación detallada para entornos específicos, como nuestras guías de introducción para Spark Standalone de un solo nodo, clústeres YARN y AWS EC2. Nota: el sistema operativo Windows no es compatible actualmente debido a este problema.
Para usar TensorFlowOnSpark con una aplicación TensorFlow existente, puede seguir nuestra Guía de conversión para describir los cambios requeridos. Además, nuestro sitio wiki tiene sugerencias para algunas presentaciones que brindan una descripción general de la plataforma.
Nota: dado que TensorFlow 2.x rompe la compatibilidad de API con TensorFlow 1.x, los ejemplos se actualizaron en consecuencia. Si está utilizando TensorFlow 1.x, deberá consultar la etiqueta v1.4.4
para ver ejemplos e instrucciones compatibles.
La documentación API se genera automáticamente a partir del código.
Únase al grupo de usuarios de TensorFlowOnSpark para debates y preguntas. Si tiene alguna pregunta, revise nuestras preguntas frecuentes antes de publicar.
Las contribuciones siempre son bienvenidas. Para obtener más información, consulte nuestra guía para participar.
Los términos de uso y distribución de este software están cubiertos por la licencia Apache 2.0. Consulte el archivo de LICENCIA para conocer los términos.