JetStream adalah mesin throughput dan memori yang dioptimalkan untuk inferensi LLM pada perangkat XLA, dimulai dengan TPU (dan GPU di masa depan - PRS Welcome).
Saat ini, ada dua implementasi mesin referensi yang tersedia - satu untuk model JAX dan satu lagi untuk model Pytorch.
Git: https://github.com/google/maxtext
README: https://github.com/google/jetstream/blob/main/docs/online-lference-with-maxtext-engine.md
Git: https://github.com/google/jetstream-pytorch
README: https://github.com/google/jetstream-pytorch/blob/main/readme.md
Inferensi online dengan maxtext di v5e cloud tpu vm [readme]
Inferensi online dengan pytorch di v5e cloud tpu vm [readme]
Sajikan gemma menggunakan TPU di GKE dengan jetstream
Benchmark Jetstream Server
Observabilitas di server jetstream
Profil di server JetStream
Pengaturan Lokal Jetstream Standalone
make install-deps
Gunakan perintah berikut untuk menjalankan server secara lokal:
# Start a server python -m jetstream.core.implementations.mock.server # Test local mock server python -m jetstream.tools.requester # Load test local mock server python -m jetstream.tools.load_tester
# Test JetStream core orchestrator python -m unittest -v jetstream.tests.core.test_orchestrator # Test JetStream core server library python -m unittest -v jetstream.tests.core.test_server # Test mock JetStream engine implementation python -m unittest -v jetstream.tests.engine.test_mock_engine # Test mock JetStream token utils python -m unittest -v jetstream.tests.engine.test_token_utils python -m unittest -v jetstream.tests.engine.test_utils