JetStream - это пропускная способность и оптимизированная память двигатель для вывода LLM на устройствах XLA, начиная с TPU (и GPU в будущем - PRS приветствовать).
В настоящее время доступно две реализации справочного двигателя - одна для моделей JAX, а другая для моделей Pytorch.
Git: https://github.com/google/maxtext
Readme: https://github.com/google/jetstream/blob/main/docs/online-inference-with-maxtext-engine.md
Git: https://github.com/google/jetstream-pytorch
Readme: https://github.com/google/jetstream-pytorch/blob/main/readme.md
Онлайн -вывод с MaxText на V5E Cloud TPU VM [README]
Онлайн -вывод с Pytorch на V5E Cloud TPU VM [ReadMe]
Подавать Джемму, используя TPU на GKE с JetStream
Clandmark JetStream Server
Наблюдаемость на сервере JetStream
Профилирование на сервере JetStream
Отдельная локальная установка JetStream
make install-deps
Используйте следующие команды для запуска сервера локально:
# Start a server python -m jetstream.core.implementations.mock.server # Test local mock server python -m jetstream.tools.requester # Load test local mock server python -m jetstream.tools.load_tester
# Test JetStream core orchestrator python -m unittest -v jetstream.tests.core.test_orchestrator # Test JetStream core server library python -m unittest -v jetstream.tests.core.test_server # Test mock JetStream engine implementation python -m unittest -v jetstream.tests.engine.test_mock_engine # Test mock JetStream token utils python -m unittest -v jetstream.tests.engine.test_token_utils python -m unittest -v jetstream.tests.engine.test_utils