DBRX 是由 Databricks 训练的大型语言模型,并在开放许可下提供。该存储库包含运行推理的最少代码和示例,以及使用 DBRX 的资源和链接的集合。
可以在此存储库中的 modeling_dbrx.py 中找到参考模型代码。
注意:此模型代码仅供参考,请参阅 Hugging Face 存储库以获取官方支持的版本。
DBRX 是一个混合专家 (MoE) 模型,具有 132B 总参数和 36B 实时参数。我们使用 16 位专家,其中 4 位在训练或推理过程中处于活跃状态。 DBRX 针对 12T 文本标记进行了预训练。 DBRX 的上下文长度为 32K 个令牌。
以下模型是开源的:
模型 | 描述 |
---|---|
DBRX 底座 | 预训练基础模型 |
DBRX指令 | 用于遵循指令的微调模型 |
该模型使用我们的开源库 Composer、LLM Foundry、MegaBlocks 和 Streaming 的优化版本进行训练。
对于指令模型,我们使用 ChatML 格式。有关详细信息,请参阅 DBRX 指令模型卡。
要下载权重和分词器,请首先访问 DBRX Hugging Face 页面并接受许可证。注意:访问基本模型需要手动批准。
我们建议至少有 320GB 内存来运行模型。
然后,运行:
pip install -r requirements.txt # Or requirements-gpu.txt to use flash attention on GPU(s)
huggingface-cli login # Add your Hugging Face token in order to access the model
python generate.py # See generate.py to change the prompt and other settings
更高级的使用请参见LLM Foundry(聊天脚本、批量生成脚本)
如果您有任何软件包安装问题,我们建议使用我们的 Docker 映像: mosaicml/llm-foundry:2.2.1_cu121_flash2-latest
TensorRT-LLM 和 vLLM 均可用于通过 DBRX 运行优化推理。我们已在 NVIDIA A100 和 H100 系统上测试了这两个库。要以 16 位精度运行推理,至少需要 4 x 80GB 多 GPU 系统。
DBRX 支持正在添加到 TensorRT-LLM 库:待定 PR
合并后,构建和运行 DBRX TensorRT 引擎的说明可在以下位置找到:README
请参阅 vLLM 文档,了解有关如何使用 vLLM 引擎运行 DBRX 的说明。
如果您有一台配备足够强大的 M 系列芯片的 Apple 笔记本电脑,则 DBRX 的量化版本可以与 MLX 一起运行。请参阅此处在 MLX 上运行 DBRX 的说明。
如果您有一台具有至少 64GB RAM 的 Apple M 系列芯片笔记本电脑,则可以使用 llama.cpp 运行 DBRX 的量化版本。
./main -ngl 41 -m ./models/ggml-dbrx-instruct-16x12b-iq1_s.gguf -n 256 --repeat_penalty 1.0 --color -i -r "User:" -f prompts/chat-with-bob.txt
要使用我们的开源库 LLM Foundry 微调 DBRX,请参阅我们的培训脚本中的说明(在此处找到)。我们对两者都有微调支持:
注意:LoRA 支持目前无法微调专家,因为专家是融合的。请继续关注更多内容。
模型卡可在以下位置找到:
DBRX 可通过以下方式在 Databricks 平台上使用:
其他提供商最近添加了对 DBRX 的支持:
Databricks 客户可以使用用于训练高质量 MoE 模型(例如 DBRX)的相同工具。如果您对预训练、微调或部署您自己的 DBRX 模型感兴趣,请通过 https://www.databricks.com/company/contact 与我们联系!
对于模型输出或社区讨论的问题,请使用 Hugging Face 社区论坛(指导、基础)
对于 LLM Foundry 或任何底层培训库的问题,请在相关 GitHub 存储库上提出问题。
我们的模型权重和代码已获得研究人员和商业实体的许可。 Databricks 开源许可证可在 LICENSE 中找到,我们的可接受使用政策可在此处找到。