Jetstream ist ein Durchsatz und eine Speicheroptimierung für LLM -Inferenz auf XLA -Geräten, beginnend mit TPUs (und GPUs in Zukunft - PRS Willkommen).
Derzeit sind zwei Referenz -Engine -Implementierungen verfügbar - eine für JAX -Modelle und eine für Pytorch -Modelle.
GIT: https://github.com/google/maxtext
ReadMe: https://github.com/google/jetstream/blob/main/docs/online-inference-with-maxtext-engine.md
GIT: https://github.com/google/jetstream-pytorch
ReadMe: https://github.com/google/jetstream-pytorch/blob/main/readme.md
Online -Inferenz mit MaxText auf V5E Cloud TPU VM [Readme]
Online -Inferenz mit Pytorch auf V5E Cloud TPU VM [Readme]
Servieren Sie Gemma mit TPUs auf GKE mit Jetstream
Benchmark Jetstream Server
Beobachtbarkeit im Jetstream -Server
Profilerstellung im Jetstream -Server
Jetstream Standalone Local Setup
make install-deps
Verwenden Sie die folgenden Befehle, um einen Server lokal auszuführen:
# Start a server python -m jetstream.core.implementations.mock.server # Test local mock server python -m jetstream.tools.requester # Load test local mock server python -m jetstream.tools.load_tester
# Test JetStream core orchestrator python -m unittest -v jetstream.tests.core.test_orchestrator # Test JetStream core server library python -m unittest -v jetstream.tests.core.test_server # Test mock JetStream engine implementation python -m unittest -v jetstream.tests.engine.test_mock_engine # Test mock JetStream token utils python -m unittest -v jetstream.tests.engine.test_token_utils python -m unittest -v jetstream.tests.engine.test_utils