JetStream
v0.2.2
JetStream是XLA设备上LLM推断的吞吐量和内存优化引擎,从TPU开始(将来GPU和GPU-欢迎PRS)。
当前,有两个可用的参考引擎实现 - 一种用于JAX模型,另一种用于Pytorch型号。
git:https://github.com/google/maxtext
README:https://github.com/google/jetstream/blob/main/main/docs/online-inline-inline-with-maxtext-engine.md
git:https://github.com/google/jetstream-pytorch
readme:https://github.com/google/jetstream-pytorch/blob/main/main/readme.md
在V5E Cloud TPU VM上使用Maxtext在线推断[README]
在V5E Cloud TPU VM上与Pytorch在线推断[readme]
使用tpus在gke上使用jetstream使用tpu
基准测试服务器
Jetstream服务器中的可观察性
在Jetstream服务器中进行分析
Jetstream独立本地设置
make install-deps
使用以下命令在本地运行服务器:
# Start a server python -m jetstream.core.implementations.mock.server # Test local mock server python -m jetstream.tools.requester # Load test local mock server python -m jetstream.tools.load_tester
# Test JetStream core orchestrator python -m unittest -v jetstream.tests.core.test_orchestrator # Test JetStream core server library python -m unittest -v jetstream.tests.core.test_server # Test mock JetStream engine implementation python -m unittest -v jetstream.tests.engine.test_mock_engine # Test mock JetStream token utils python -m unittest -v jetstream.tests.engine.test_token_utils python -m unittest -v jetstream.tests.engine.test_utils