DBRX é um grande modelo de linguagem treinado pela Databricks e disponibilizado sob licença aberta. Este repositório contém o código mínimo e exemplos para executar inferência, bem como uma coleção de recursos e links para usar DBRX.
Um código de modelo de referência pode ser encontrado neste repositório em modelagem_dbrx.py.
Nota: este código de modelo é fornecido apenas para fins de referência, consulte o repositório Hugging Face para a versão oficial suportada.
DBRX é um modelo Mixture-of-Experts (MoE) com 132B de parâmetros totais e 36B de parâmetros ao vivo. Utilizamos 16 especialistas, dos quais 4 estão ativos durante o treinamento ou inferência. O DBRX foi pré-treinado para tokens de texto 12T. DBRX tem um comprimento de contexto de 32 mil tokens.
Os seguintes modelos são de código aberto:
Modelo | Descrição |
---|---|
Base DBRX | Modelo básico pré-treinado |
Instrução DBRX | Modelo ajustado para instrução seguinte |
O modelo foi treinado usando versões otimizadas de nossas bibliotecas de código aberto Composer, LLM Foundry, MegaBlocks e Streaming.
Para o modelo de instrução, utilizamos o formato ChatML. Consulte o cartão do modelo DBRX Instruct para obter mais informações sobre isso.
Para baixar os pesos e o tokenizer, primeiro visite a página DBRX Hugging Face e aceite a licença. Nota: o acesso ao modelo Base requer aprovação manual.
Recomendamos ter pelo menos 320 GB de memória para rodar o modelo.
Então, execute:
pip install -r requirements.txt # Or requirements-gpu.txt to use flash attention on GPU(s)
huggingface-cli login # Add your Hugging Face token in order to access the model
python generate.py # See generate.py to change the prompt and other settings
Para uso mais avançado, consulte LLM Foundry (script de bate-papo, script de geração em lote)
Se você tiver algum problema de instalação de pacote, recomendamos usar nossa imagem Docker: mosaicml/llm-foundry:2.2.1_cu121_flash2-latest
Tanto o TensorRT-LLM quanto o vLLM podem ser usados para executar inferência otimizada com DBRX. Testamos ambas as bibliotecas em sistemas NVIDIA A100 e H100. Para executar inferência com precisão de 16 bits, é necessário um mínimo de 4 sistemas multi-GPU de 80 GB.
O suporte DBRX está sendo adicionado à biblioteca TensorRT-LLM: PR pendente
Após a fusão, as instruções para construir e executar motores DBRX TensorRT serão encontradas em: README
Consulte a documentação do vLLM para obter instruções sobre como executar o DBRX com o mecanismo vLLM.
Se você tiver um laptop Apple com um chip da série M suficientemente poderoso, a versão quantizada do DBRX pode ser executada com o MLX. Veja as instruções para executar o DBRX no MLX aqui.
Se você tiver um laptop Apple com chip da série M com pelo menos 64 GB de RAM, poderá executar uma versão quantizada do DBRX usando llama.cpp.
./main -ngl 41 -m ./models/ggml-dbrx-instruct-16x12b-iq1_s.gguf -n 256 --repeat_penalty 1.0 --color -i -r "User:" -f prompts/chat-with-bob.txt
Para ajustar o DBRX com nossa biblioteca de código aberto LLM Foundry, consulte as instruções em nosso script de treinamento (encontrado aqui). Temos suporte de ajuste fino para ambos:
Nota: O suporte LoRA atualmente não pode ajustar os especialistas, uma vez que os especialistas estão fundidos. Fique ligado para mais.
Os cartões modelo podem ser encontrados em:
O DBRX está disponível na plataforma Databricks através de:
Outros provedores adicionaram recentemente suporte para DBRX:
As mesmas ferramentas usadas para treinar modelos MoE de alta qualidade, como o DBRX, estão disponíveis para clientes do Databricks. Entre em contato conosco em https://www.databricks.com/company/contact se estiver interessado em pré-treinamento, ajuste fino ou implantação de seus próprios modelos DBRX!
Para problemas com resultados do modelo ou discussão da comunidade, use o fórum da comunidade Hugging Face (instruir, base)
Para problemas com o LLM Foundry ou qualquer uma das bibliotecas de treinamento subjacentes, abra um problema no repositório GitHub relevante.
Nossos pesos e códigos de modelo são licenciados para pesquisadores e entidades comerciais. A licença de código aberto do Databricks pode ser encontrada em LICENSE e nossa Política de Uso Aceitável pode ser encontrada aqui.