JetStream เป็นเอ็นจิ้นปริมาณงานและหน่วยความจำที่ปรับให้เหมาะสมสำหรับการอนุมาน LLM บนอุปกรณ์ XLA เริ่มต้นด้วย TPUs (และ GPU ในอนาคต - ยินดีต้อนรับ PRS)
ปัจจุบันมีการใช้งานเครื่องมืออ้างอิงสองแบบ - หนึ่งชุดสำหรับรุ่น JAX และอีกรุ่นสำหรับรุ่น Pytorch
Git: https://github.com/google/maxtext
readme: https://github.com/google/jetstream/blob/main/docs/online-inference-with-maxtext-engine.md
Git: https://github.com/google/jetstream-pytorch
readme: https://github.com/google/jetstream-pytorch/blob/main/readme.md
การอนุมานออนไลน์ด้วย MaxText บน v5e Cloud TPU VM [readMe]
การอนุมานออนไลน์ด้วย pytorch บน v5e Cloud TPU VM [readme]
ให้บริการเจมม่าโดยใช้ TPUs บน GKE กับ Jetstream
เกณฑ์มาตรฐานเซิร์ฟเวอร์ Jetstream
ความสามารถในการสังเกตในเซิร์ฟเวอร์ Jetstream
การทำโปรไฟล์ในเซิร์ฟเวอร์ jetstream
การตั้งค่าท้องถิ่น jetstream standalone
make install-deps
ใช้คำสั่งต่อไปนี้เพื่อเรียกใช้เซิร์ฟเวอร์ในเครื่อง:
# Start a server python -m jetstream.core.implementations.mock.server # Test local mock server python -m jetstream.tools.requester # Load test local mock server python -m jetstream.tools.load_tester
# Test JetStream core orchestrator python -m unittest -v jetstream.tests.core.test_orchestrator # Test JetStream core server library python -m unittest -v jetstream.tests.core.test_server # Test mock JetStream engine implementation python -m unittest -v jetstream.tests.engine.test_mock_engine # Test mock JetStream token utils python -m unittest -v jetstream.tests.engine.test_token_utils python -m unittest -v jetstream.tests.engine.test_utils