DBRX 是由 Databricks 訓練的大型語言模型,並在開放許可下提供。此儲存庫包含執行推理的最少程式碼和範例,以及使用 DBRX 的資源和連結的集合。
可以在此儲存庫中的 modeling_dbrx.py 中找到參考模型程式碼。
注意:此模型程式碼僅供參考,請參閱 Hugging Face 儲存庫以取得官方支援的版本。
DBRX 是一個混合專家 (MoE) 模型,具有 132B 總參數和 36B 即時參數。我們使用 16 位專家,其中 4 位在訓練或推理過程中處於活躍狀態。 DBRX 針對 12T 文字標記進行了預訓練。 DBRX 的上下文長度為 32K 個令牌。
以下模型是開源的:
模型 | 描述 |
---|---|
DBRX 底座 | 預訓練基礎模型 |
DBRX指令 | 用於遵循指令的微調模型 |
模型使用我們的開源程式庫 Composer、LLM Foundry、MegaBlocks 和 Streaming 的最佳化版本進行訓練。
對於指令模型,我們使用 ChatML 格式。有關詳細信息,請參閱 DBRX 指令模型卡。
若要下載重量和分詞器,請先造訪 DBRX Hugging Face 頁面並接受授權。注意:存取基本模型需要手動批准。
我們建議至少有 320GB 記憶體來運行模型。
然後,運行:
pip install -r requirements.txt # Or requirements-gpu.txt to use flash attention on GPU(s)
huggingface-cli login # Add your Hugging Face token in order to access the model
python generate.py # See generate.py to change the prompt and other settings
更進階的使用請參閱LLM Foundry(聊天腳本、批次產生腳本)
如果您有任何軟體包安裝問題,我們建議使用我們的 Docker 映像: mosaicml/llm-foundry:2.2.1_cu121_flash2-latest
TensorRT-LLM 和 vLLM 均可用於透過 DBRX 運行最佳化推理。我們已在 NVIDIA A100 和 H100 系統上測試了這兩個函式庫。要以 16 位元精度運行推理,至少需要 4 x 80GB 多 GPU 系統。
DBRX 支援正在新增到 TensorRT-LLM 庫:待定 PR
合併後,建置和運行 DBRX TensorRT 引擎的說明可在以下位置找到:README
請參閱 vLLM 文檔,以了解有關如何使用 vLLM 引擎執行 DBRX 的說明。
如果您有一台配備足夠強大的 M 系列晶片的 Apple 筆記型電腦,則 DBRX 的量化版本可以與 MLX 一起運作。請參閱此處在 MLX 上執行 DBRX 的說明。
如果您有一台具有至少 64GB RAM 的 Apple M 系列晶片筆記型電腦,則可以使用 llama.cpp 運行 DBRX 的量化版本。
./main -ngl 41 -m ./models/ggml-dbrx-instruct-16x12b-iq1_s.gguf -n 256 --repeat_penalty 1.0 --color -i -r "User:" -f prompts/chat-with-bob.txt
若要使用我們的開源程式庫 LLM Foundry 微調 DBRX,請參閱我們的訓練腳本中的說明(在此處找到)。我們對兩者都有微調支持:
注意:LoRA 支援目前無法微調專家,因為專家是融合的。請繼續關注更多內容。
模型卡可在以下位置找到:
DBRX 可透過以下方式在 Databricks 平台上使用:
其他提供者最近新增了對 DBRX 的支援:
Databricks 客戶可以使用用於訓練高品質 MoE 模型(例如 DBRX)的相同工具。如果您對預先訓練、微調或部署您自己的 DBRX 模型感興趣,請透過 https://www.databricks.com/company/contact 與我們聯繫!
對於模型輸出或社群討論的問題,請使用 Hugging Face 社群論壇(指導、基礎)
對於 LLM Foundry 或任何底層培訓庫的問題,請在相關 GitHub 儲存庫上提出問題。
我們的模型權重和程式碼已獲得研究人員和商業實體的許可。 Databricks 開源許可證可在 LICENSE 中找到,我們的可接受使用政策可在此處找到。