Este projeto implementa inferência eficiente de modelos Mixtral-8x7B.
Em resumo, alcançamos inferência eficiente de modelos Mixtral-8x7B através de uma combinação de técnicas:
Para obter informações mais detalhadas sobre nossos métodos e resultados, consulte nosso relatório técnico.
Para experimentar esta demonstração, use o bloco de notas de demonstração: ./notebooks/demo.ipynb ou
Por enquanto, não há script de linha de comando disponível para executar o modelo localmente. No entanto, você pode criar um usando o caderno de demonstração como referência. Dito isto, contribuições são bem-vindas!
Algumas técnicas descritas em nosso relatório técnico ainda não estão disponíveis neste repositório. No entanto, estamos trabalhando ativamente para adicionar suporte a eles em um futuro próximo.
Alguns dos próximos recursos são: