TensorFlowOnSpark menghadirkan pembelajaran mendalam yang skalabel ke kluster Apache Hadoop dan Apache Spark.
Dengan menggabungkan fitur-fitur penting dari framework deep learning TensorFlow dengan Apache Spark dan Apache Hadoop, TensorFlowOnSpark memungkinkan deep learning terdistribusi pada cluster server GPU dan CPU.
Hal ini memungkinkan pelatihan TensorFlow terdistribusi dan inferensi pada kluster Spark, dengan tujuan meminimalkan jumlah perubahan kode yang diperlukan untuk menjalankan program TensorFlow yang ada di grid bersama. API yang kompatibel dengan Spark membantu mengelola kluster TensorFlow dengan langkah-langkah berikut:
TFNode.DataFeed
. Perhatikan bahwa kami memanfaatkan Format Input/Output Hadoop untuk mengakses TFRecords di HDFS.TensorFlowOnSpark dikembangkan oleh Yahoo untuk pembelajaran mendalam terdistribusi berskala besar pada kluster Hadoop kami di cloud pribadi Yahoo.
TensorFlowOnSpark memberikan beberapa manfaat penting (lihat blog kami) dibandingkan solusi pembelajaran mendalam alternatif.
TensorFlowOnSpark disediakan sebagai paket pip, yang dapat diinstal pada satu mesin melalui:
# for tensorflow>=2.0.0
pip install tensorflowonspark
# for tensorflow<2.0.0
pip install tensorflowonspark==1.4.4
Untuk klaster terdistribusi, silakan lihat situs wiki kami untuk dokumentasi terperinci untuk lingkungan tertentu, seperti panduan memulai untuk Spark Standalone node tunggal, klaster YARN, dan AWS EC2. Catatan: sistem operasi Windows saat ini tidak didukung karena masalah ini.
Untuk menggunakan TensorFlowOnSpark dengan aplikasi TensorFlow yang sudah ada, Anda dapat mengikuti Panduan Konversi kami untuk menjelaskan perubahan yang diperlukan. Selain itu, situs wiki kami memiliki petunjuk ke beberapa presentasi yang memberikan gambaran umum tentang platform.
Catatan: karena TensorFlow 2.x merusak kompatibilitas API dengan TensorFlow 1.x, contohnya telah diperbarui. Jika Anda menggunakan TensorFlow 1.x, Anda perlu memeriksa tag v1.4.4
untuk mendapatkan contoh dan petunjuk yang kompatibel.
Dokumentasi API secara otomatis dihasilkan dari kode.
Silakan bergabung dengan grup pengguna TensorFlowOnSpark untuk berdiskusi dan bertanya. Jika Anda memiliki pertanyaan, harap tinjau FAQ kami sebelum memposting.
Kontribusi selalu diterima. Untuk informasi lebih lanjut, silakan lihat panduan kami untuk terlibat.
Ketentuan penggunaan dan distribusi perangkat lunak ini dilindungi oleh lisensi Apache 2.0. Lihat file LISENSI untuk mengetahui persyaratannya.