DBRX es un modelo de lenguaje grande entrenado por Databricks y disponible bajo una licencia abierta. Este repositorio contiene el código mínimo y ejemplos para ejecutar la inferencia, así como una colección de recursos y enlaces para usar DBRX.
Puede encontrar un código de modelo de referencia en este repositorio en modeling_dbrx.py.
Nota: este código de modelo se proporciona solo con fines de referencia; consulte el repositorio de Hugging Face para obtener la versión oficial compatible.
DBRX es un modelo de mezcla de expertos (MoE) con 132 mil millones de parámetros totales y 36 mil millones de parámetros en vivo. Utilizamos 16 expertos, de los cuales 4 están activos durante el entrenamiento o la inferencia. DBRX fue entrenado previamente para tokens de texto de 12T. DBRX tiene una longitud de contexto de 32K tokens.
Los siguientes modelos son de código abierto:
Modelo | Descripción |
---|---|
Base DBRX | Modelo base previamente entrenado |
Instrucción DBRX | Modelo ajustado para seguir instrucciones |
El modelo se entrenó utilizando versiones optimizadas de nuestras bibliotecas de código abierto Composer, LLM Foundry, MegaBlocks y Streaming.
Para el modelo de instrucción, utilizamos el formato ChatML. Consulte la tarjeta del modelo DBRX Instruct para obtener más información al respecto.
Para descargar los pesos y el tokenizador, primero visite la página DBRX Hugging Face y acepte la licencia. Nota: el acceso al modelo Base requiere aprobación manual.
Recomendamos tener al menos 320 GB de memoria para ejecutar el modelo.
Luego, ejecuta:
pip install -r requirements.txt # Or requirements-gpu.txt to use flash attention on GPU(s)
huggingface-cli login # Add your Hugging Face token in order to access the model
python generate.py # See generate.py to change the prompt and other settings
Para un uso más avanzado, consulte LLM Foundry (script de chat, script de generación por lotes)
Si tiene algún problema con la instalación de paquetes, le recomendamos utilizar nuestra imagen de Docker: mosaicml/llm-foundry:2.2.1_cu121_flash2-latest
Tanto TensorRT-LLM como vLLM se pueden utilizar para ejecutar inferencia optimizada con DBRX. Hemos probado ambas bibliotecas en sistemas NVIDIA A100 y H100. Para ejecutar la inferencia con precisión de 16 bits, se requiere un mínimo de 4 sistemas multiGPU de 80 GB.
Se está agregando compatibilidad con DBRX a la biblioteca TensorRT-LLM: PR pendiente
Después de la fusión, las instrucciones para construir y ejecutar motores DBRX TensorRT se encontrarán en: README
Consulte los documentos de vLLM para obtener instrucciones sobre cómo ejecutar DBRX con el motor vLLM.
Si tiene una computadora portátil Apple con un chip de la serie M suficientemente potente, la versión cuantificada de DBRX se puede ejecutar con MLX. Consulte las instrucciones para ejecutar DBRX en MLX aquí.
Si tiene una computadora portátil con chip Apple serie M con al menos 64 GB de RAM, puede ejecutar una versión cuantificada de DBRX usando llama.cpp.
./main -ngl 41 -m ./models/ggml-dbrx-instruct-16x12b-iq1_s.gguf -n 256 --repeat_penalty 1.0 --color -i -r "User:" -f prompts/chat-with-bob.txt
Para ajustar DBRX con nuestra biblioteca de código abierto LLM Foundry, consulte las instrucciones en nuestro script de capacitación (que se encuentra aquí). Contamos con soporte de ajuste para ambos:
Nota: El soporte de LoRA actualmente no puede ajustar a los expertos, ya que los expertos están fusionados. Estén atentos para más.
Las tarjetas modelo se pueden encontrar en:
DBRX está disponible en la plataforma Databricks a través de:
Otros proveedores han agregado recientemente soporte para DBRX:
Las mismas herramientas utilizadas para entrenar modelos MoE de alta calidad, como DBRX, están disponibles para los clientes de Databricks. Comuníquese con nosotros en https://www.databricks.com/company/contact si está interesado en realizar capacitación previa, ajustar o implementar sus propios modelos DBRX.
Si tiene problemas con la salida del modelo o la discusión comunitaria, utilice el foro comunitario de Hugging Face (instruir, base)
Si tiene problemas con LLM Foundry o cualquiera de las bibliotecas de capacitación subyacentes, abra un problema en el repositorio de GitHub correspondiente.
Nuestros pesos y códigos de modelo tienen licencia tanto para investigadores como para entidades comerciales. La licencia de código abierto de Databricks se puede encontrar en LICENCIA y nuestra Política de uso aceptable se puede encontrar aquí.