TensorFlowOnSpark 為 Apache Hadoop 和 Apache Spark 叢集帶來了可擴展的深度學習。
透過將 TensorFlow 深度學習框架的顯著功能與 Apache Spark 和 Apache Hadoop 結合,TensorFlowOnSpark 可在 GPU 和 CPU 伺服器叢集上實現分散式深度學習。
它支援在 Spark 叢集上進行分散式 TensorFlow 訓練和推理,目標是最大限度地減少在共用網格上執行現有 TensorFlow 程式所需的程式碼變更量。其與 Spark 相容的 API 透過以下步驟協助管理 TensorFlow 叢集:
TFNode.DataFeed
類別將 Spark RDD 資料傳送到 TensorFlow 節點。請注意,我們利用 Hadoop 輸入/輸出格式來存取 HDFS 上的 TFRecord。TensorFlowOnSpark 由雅虎開發,用於在雅虎私有雲中的 Hadoop 叢集上進行大規模分散式深度學習。
與其他深度學習解決方案相比,TensorFlowOnSpark 提供了一些重要的優勢(請參閱我們的部落格)。
TensorFlowOnSpark 作為 pip 套件提供,可以透過以下方式安裝在單一電腦上:
# for tensorflow>=2.0.0
pip install tensorflowonspark
# for tensorflow<2.0.0
pip install tensorflowonspark==1.4.4
對於分散式集群,請參閱我們的 wiki 網站以取得特定環境的詳細文檔,例如單節點 Spark Standalone、YARN 叢集和 AWS EC2 的入門指南。注意:由於此問題,目前不支援 Windows 作業系統。
若要將 TensorFlowOnSpark 與現有 TensorFlow 應用程式結合使用,您可以按照我們的轉換指南來描述所需的變更。此外,我們的 wiki 網站還提供了一些演示文稿的鏈接,這些演示文稿提供了該平台的概述。
注意:由於 TensorFlow 2.x 破壞了與 TensorFlow 1.x 的 API 相容性,因此範例已相應更新。如果您使用的是 TensorFlow 1.x,則需要查看v1.4.4
標籤以取得相容的範例和說明。
API文件是從程式碼自動產生的。
請加入 TensorFlowOnSpark 使用者群組進行討論和提問。如果您有疑問,請在發布前查看我們的常見問題。
隨時歡迎您的貢獻。欲了解更多信息,請參閱我們的參與指南。
該軟體的使用和分發條款包含在 Apache 2.0 授權中。有關條款,請參閱許可證文件。