O TensorFlowOnSpark traz aprendizado profundo escalonável para clusters Apache Hadoop e Apache Spark.
Ao combinar recursos importantes da estrutura de aprendizagem profunda do TensorFlow com Apache Spark e Apache Hadoop, o TensorFlowOnSpark permite aprendizagem profunda distribuída em um cluster de servidores GPU e CPU.
Ele permite o treinamento distribuído do TensorFlow e a inferência em clusters Spark, com o objetivo de minimizar a quantidade de alterações de código necessárias para executar programas TensorFlow existentes em uma grade compartilhada. Sua API compatível com Spark ajuda a gerenciar o cluster TensorFlow com as seguintes etapas:
TFNode.DataFeed
. Observe que aproveitamos o formato de entrada/saída do Hadoop para acessar TFRecords no HDFS.O TensorFlowOnSpark foi desenvolvido pelo Yahoo para aprendizagem profunda distribuída em larga escala em nossos clusters Hadoop na nuvem privada do Yahoo.
O TensorFlowOnSpark oferece alguns benefícios importantes (veja nosso blog) em relação a soluções alternativas de aprendizado profundo.
O TensorFlowOnSpark é fornecido como um pacote pip, que pode ser instalado em máquinas individuais por meio de:
# for tensorflow>=2.0.0
pip install tensorflowonspark
# for tensorflow<2.0.0
pip install tensorflowonspark==1.4.4
Para clusters distribuídos, consulte nosso site wiki para obter documentação detalhada para ambientes específicos, como nossos guias de primeiros passos para Spark Standalone de nó único, clusters YARN e AWS EC2. Observação: o sistema operacional Windows não é compatível no momento devido a esse problema.
Para usar o TensorFlowOnSpark com um aplicativo TensorFlow existente, siga nosso Guia de conversão para descrever as alterações necessárias. Além disso, nosso site wiki contém indicações para algumas apresentações que fornecem uma visão geral da plataforma.
Observação: como o TensorFlow 2.x quebra a compatibilidade da API com o TensorFlow 1.x, os exemplos foram atualizados de acordo. Se estiver usando o TensorFlow 1.x, você precisará verificar a tag v1.4.4
para obter exemplos e instruções compatíveis.
A documentação da API é gerada automaticamente a partir do código.
Participe do grupo de usuários do TensorFlowOnSpark para discussões e perguntas. Se você tiver alguma dúvida, consulte nosso FAQ antes de postar.
Contribuições são sempre bem-vindas. Para obter mais informações, consulte nosso guia para se envolver.
Os termos de uso e distribuição deste software são cobertos pela licença Apache 2.0. Consulte o arquivo LICENSE para obter os termos.