Jetsstream est un moteur de débit et optimisé par la mémoire pour l'inférence LLM sur les appareils XLA, en commençant par les TPU (et les GPU à l'avenir - les PR bienvenus).
Actuellement, deux implémentations de moteur de référence sont disponibles - une pour les modèles JAX et une autre pour les modèles Pytorch.
Git: https://github.com/google/maxtext
Readme: https://github.com/google/jetsstream/blob/main/docs/online-inference-with-maxtext-engine.md
Git: https://github.com/google/jetsstream-pytorch
Readme: https://github.com/google/jetsstream-pytorch/blob/main/readme.md
Inférence en ligne avec MaxText sur V5E Cloud TPU VM [Readme]
Inférence en ligne avec Pytorch sur V5E Cloud TPU VM [Readme]
Servir Gemma en utilisant des TPU sur GKE avec Jetsstream
Serveur de référence à Jetsstream
Observabilité dans le serveur Jetsstream
Profilage dans le serveur Jetsstream
Configuration locale autonome de Jetsstream
make install-deps
Utilisez les commandes suivantes pour exécuter un serveur localement:
# Start a server python -m jetstream.core.implementations.mock.server # Test local mock server python -m jetstream.tools.requester # Load test local mock server python -m jetstream.tools.load_tester
# Test JetStream core orchestrator python -m unittest -v jetstream.tests.core.test_orchestrator # Test JetStream core server library python -m unittest -v jetstream.tests.core.test_server # Test mock JetStream engine implementation python -m unittest -v jetstream.tests.engine.test_mock_engine # Test mock JetStream token utils python -m unittest -v jetstream.tests.engine.test_token_utils python -m unittest -v jetstream.tests.engine.test_utils