Dieses Projekt implementiert eine effiziente Inferenz von Mixtral-8x7B-Modellen.
Zusammenfassend erreichen wir eine effiziente Inferenz von Mixtral-8x7B-Modellen durch eine Kombination von Techniken:
Ausführlichere Informationen zu unseren Methoden und Ergebnissen finden Sie in unserem Tech-Report.
Um diese Demo auszuprobieren, verwenden Sie bitte das Demo-Notizbuch: ./notebooks/demo.ipynb oder
Derzeit ist kein Befehlszeilenskript zum lokalen Ausführen des Modells verfügbar. Sie können jedoch eines erstellen und dabei das Demo-Notizbuch als Referenz verwenden. Dennoch sind Beiträge willkommen!
Einige in unserem technischen Bericht beschriebene Techniken sind in diesem Repo noch nicht verfügbar. Wir arbeiten jedoch aktiv daran, in naher Zukunft Unterstützung für sie bereitzustellen.
Einige der kommenden Funktionen sind: