O JetStream é um mecanismo otimizado por taxa de transferência e memória para inferência de LLM em dispositivos XLA, começando com TPUs (e GPUs no futuro - PRS Welcome).
Atualmente, existem duas implementações de mecanismo de referência disponíveis - uma para modelos JAX e outro para modelos Pytorch.
Git: https://github.com/google/maxtext
Readme: https://github.com/google/Jettream/blob/main/docs/online-inference-with-maxtext-engine.md
Git: https://github.com/google/JetStream-pytorch
Readme: https://github.com/google/Jettream-pytorch/blob/main/readme.md
Inferência online com MaxText no V5E Cloud TPU VM [ReadMe]
Inferência on -line com Pytorch no V5E Cloud TPU VM [ReadMe]
Sirva Gemma usando TPUs no GKE com JetStream
Referência do servidor JetStream
Observabilidade no servidor JetStream
Perfil no servidor JetStream
Configuração local independente do JetStream
make install-deps
Use os seguintes comandos para executar um servidor localmente:
# Start a server python -m jetstream.core.implementations.mock.server # Test local mock server python -m jetstream.tools.requester # Load test local mock server python -m jetstream.tools.load_tester
# Test JetStream core orchestrator python -m unittest -v jetstream.tests.core.test_orchestrator # Test JetStream core server library python -m unittest -v jetstream.tests.core.test_server # Test mock JetStream engine implementation python -m unittest -v jetstream.tests.engine.test_mock_engine # Test mock JetStream token utils python -m unittest -v jetstream.tests.engine.test_token_utils python -m unittest -v jetstream.tests.engine.test_utils