DBRX เป็นโมเดลภาษาขนาดใหญ่ที่ได้รับการฝึกโดย Databricks และเปิดให้ใช้งานภายใต้ใบอนุญาตแบบเปิด พื้นที่เก็บข้อมูลนี้มีโค้ดขั้นต่ำและตัวอย่างในการอนุมาน รวมถึงคอลเลกชันของทรัพยากรและลิงก์สำหรับการใช้ DBRX
โค้ดโมเดลอ้างอิงสามารถพบได้ในพื้นที่เก็บข้อมูลนี้ที่ modeling_dbrx.py
หมายเหตุ: รหัสโมเดลนี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการอ้างอิงเท่านั้น โปรดดูที่พื้นที่เก็บข้อมูล Hugging Face สำหรับเวอร์ชันที่รองรับอย่างเป็นทางการ
DBRX เป็นโมเดล Mixture-of-Experts (MoE) ที่มีพารามิเตอร์รวม 132B และพารามิเตอร์สด 36B เราใช้ผู้เชี่ยวชาญ 16 คน โดย 4 คนทำงานอยู่ระหว่างการฝึกอบรมหรือการอนุมาน DBRX ได้รับการฝึกอบรมล่วงหน้าสำหรับโทเค็นข้อความ 12T DBRX มีความยาวบริบทเท่ากับ 32K โทเค็น
โมเดลต่อไปนี้เป็นแบบโอเพ่นซอร์ส:
แบบอย่าง | คำอธิบาย |
---|---|
ฐาน DBRX | โมเดลพื้นฐานที่ได้รับการฝึกอบรมล่วงหน้า |
คำสั่ง DBRX | โมเดลที่ได้รับการปรับแต่งอย่างละเอียดสำหรับคำแนะนำต่อไปนี้ |
โมเดลนี้ได้รับการฝึกฝนโดยใช้เวอร์ชันที่ได้รับการปรับปรุงประสิทธิภาพของไลบรารีโอเพ่นซอร์สของเรา Composer, LLM Foundry, MegaBlocks และ Streaming
สำหรับโมเดลการสอน เราใช้รูปแบบ ChatML โปรดดูการ์ดโมเดล DBRX Instruct สำหรับข้อมูลเพิ่มเติมเกี่ยวกับเรื่องนี้
หากต้องการดาวน์โหลดตุ้มน้ำหนักและโทเค็น โปรดไปที่หน้า DBRX Hugging Face ก่อนแล้วยอมรับใบอนุญาต หมายเหตุ: การเข้าถึงโมเดลฐานต้องได้รับอนุมัติด้วยตนเอง
เราขอแนะนำให้มีหน่วยความจำอย่างน้อย 320GB เพื่อรันโมเดล
จากนั้นให้รัน:
pip install -r requirements.txt # Or requirements-gpu.txt to use flash attention on GPU(s)
huggingface-cli login # Add your Hugging Face token in order to access the model
python generate.py # See generate.py to change the prompt and other settings
สำหรับการใช้งานขั้นสูง โปรดดู LLM Foundry (สคริปต์แชท สคริปต์การสร้างแบทช์)
หากคุณมีปัญหาในการติดตั้งแพ็คเกจ เราขอแนะนำให้ใช้อิมเมจ Docker ของเรา: mosaicml/llm-foundry:2.2.1_cu121_flash2-latest
สามารถใช้ทั้ง TensorRT-LLM และ vLLM เพื่อเรียกใช้การอนุมานที่ปรับให้เหมาะสมด้วย DBRX เราได้ทดสอบไลบรารีทั้งสองบนระบบ NVIDIA A100 และ H100 หากต้องการเรียกใช้การอนุมานด้วยความแม่นยำ 16 บิต จำเป็นต้องมีระบบ multi-GPU ขนาด 4 x 80GB ขั้นต่ำ
กำลังเพิ่มการรองรับ DBRX ในไลบรารี TensorRT-LLM: รอดำเนินการ PR
หลังจากการผสานรวม คำแนะนำในการสร้างและรันเอ็นจิ้น DBRX TensorRT จะอยู่ที่: README
โปรดดูเอกสาร vLLM สำหรับคำแนะนำเกี่ยวกับวิธีการรัน DBRX ด้วยกลไก vLLM
หากคุณมีแล็ปท็อป Apple ที่มีชิป M-series ที่ทรงพลังเพียงพอ DBRX เวอร์ชันเชิงปริมาณสามารถรันด้วย MLX ได้ ดูคำแนะนำสำหรับการรัน DBRX บน MLX ที่นี่
หากคุณมีแล็ปท็อปชิป Apple M-series ที่มี RAM อย่างน้อย 64GB คุณสามารถเรียกใช้ DBRX เวอร์ชันเชิงปริมาณได้โดยใช้ llama.cpp
./main -ngl 41 -m ./models/ggml-dbrx-instruct-16x12b-iq1_s.gguf -n 256 --repeat_penalty 1.0 --color -i -r "User:" -f prompts/chat-with-bob.txt
หากต้องการปรับแต่ง DBRX ด้วยไลบรารีโอเพ่นซอร์ส LLM Foundry โปรดดูคำแนะนำในสคริปต์การฝึกอบรมของเรา (พบที่นี่) เรามีการสนับสนุนการปรับแต่งสำหรับทั้งสองอย่าง:
หมายเหตุ: ขณะนี้การสนับสนุน LoRA ไม่สามารถปรับแต่งผู้เชี่ยวชาญได้ เนื่องจากผู้เชี่ยวชาญถูกหลอมรวมเข้าด้วยกัน คอยติดตามข้อมูลเพิ่มเติม
สามารถดูการ์ดโมเดลได้ที่:
DBRX มีให้บริการบนแพลตฟอร์ม Databricks ผ่าน:
ผู้ให้บริการรายอื่นได้เพิ่มการรองรับ DBRX เมื่อเร็วๆ นี้:
เครื่องมือแบบเดียวกับที่ใช้ในการฝึกโมเดล MoE คุณภาพสูง เช่น DBRX มีให้สำหรับลูกค้า Databricks โปรดติดต่อเราที่ https://www.databricks.com/company/contact หากคุณสนใจในการฝึกอบรมล่วงหน้า การปรับแต่ง หรือการปรับใช้โมเดล DBRX ของคุณเอง!
สำหรับปัญหาเกี่ยวกับโมเดลเอาต์พุต หรือการสนทนาในชุมชน โปรดใช้ฟอรัมชุมชน Hugging Face (คำแนะนำ ฐาน)
สำหรับปัญหาเกี่ยวกับ LLM Foundry หรือไลบรารีการฝึกอบรมที่เกี่ยวข้อง โปรดเปิดปัญหาบนพื้นที่เก็บข้อมูล GitHub ที่เกี่ยวข้อง
ตุ้มน้ำหนักและโค้ดแบบจำลองของเราได้รับอนุญาตสำหรับทั้งนักวิจัยและหน่วยงานเชิงพาณิชย์ สามารถดูใบอนุญาต Databricks Open Source ได้ที่ LICENSE และนโยบายการใช้งานที่ยอมรับได้ของเราสามารถพบได้ที่นี่