? โมเดลบนใบหน้ากอด |. เว็บไซต์ |
เรากำลังปลดปล่อยพลังของโมเดลภาษาขนาดใหญ่ Llama เวอร์ชันล่าสุดของเราพร้อมให้บริการแล้วสำหรับบุคคลทั่วไป ผู้สร้าง นักวิจัย และธุรกิจทุกขนาด เพื่อให้พวกเขาสามารถทดลอง สร้างสรรค์ และขยายขอบเขตความคิดของตนได้อย่างมีความรับผิดชอบ
รุ่นนี้ประกอบด้วยน้ำหนักโมเดลและโค้ดเริ่มต้นสำหรับโมเดลภาษา Llama 3 ที่ได้รับการฝึกอบรมล่วงหน้าและปรับแต่งคำแนะนำ รวมถึงขนาดพารามิเตอร์ตั้งแต่ 8B ถึง 70B
พื้นที่เก็บข้อมูลนี้มีไว้เป็นตัวอย่างขั้นต่ำของการโหลดโมเดล Llama 3 และการอนุมานที่กำลังรันอยู่ ดูสูตรลามะสำหรับตัวอย่างโดยละเอียดเพิ่มเติม
หากต้องการดาวน์โหลดน้ำหนักโมเดลและโทเค็นไนเซอร์ โปรดไปที่เว็บไซต์ Meta Llama และยอมรับข้อตกลงใบอนุญาตของเรา
หลังจากส่งคำขอของคุณแล้ว คุณจะได้รับ URL ที่ลงนามทางอีเมล จากนั้นรันสคริปต์ download.sh โดยส่ง URL ที่ให้ไว้เมื่อได้รับแจ้งให้เริ่มการดาวน์โหลด
วิชาบังคับก่อน: ตรวจสอบให้แน่ใจว่าคุณได้ติดตั้ง wget
และ md5sum
แล้ว จากนั้นรันสคริปต์: ./download.sh
โปรดทราบว่าลิงก์จะหมดอายุหลังจากผ่านไป 24 ชั่วโมงและมีการดาวน์โหลดตามจำนวนที่กำหนด หากคุณเริ่มเห็นข้อผิดพลาด เช่น 403: Forbidden
คุณสามารถขอลิงก์ใหม่ได้ตลอดเวลา
นอกจากนี้เรายังมีการดาวน์โหลดบน Hugging Face รวมถึง Transformers และรูปแบบ Native llama3
หากต้องการดาวน์โหลดตุ้มน้ำหนักจาก Hugging Face ให้ทำตามขั้นตอนเหล่านี้:
original
คุณยังสามารถดาวน์โหลดได้จากบรรทัดคำสั่งหากคุณติดตั้ง pip install huggingface-hub
: huggingface-cli download meta-llama/Meta-Llama-3-8B-Instruct --include " original/* " --local-dir meta-llama/Meta-Llama-3-8B-Instruct
import transformers
import torch
model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
pipeline = transformers . pipeline (
"text-generation" ,
model = "meta-llama/Meta-Llama-3-8B-Instruct" ,
model_kwargs = { "torch_dtype" : torch . bfloat16 },
device = "cuda" ,
)
คุณสามารถเริ่มใช้รุ่น Llama 3 ได้อย่างรวดเร็วโดยทำตามขั้นตอนด้านล่าง ขั้นตอนเหล่านี้จะช่วยให้คุณสามารถอนุมานอย่างรวดเร็วภายในเครื่องได้ หากต้องการตัวอย่างเพิ่มเติม โปรดดูที่เก็บสูตรอาหาร Llama
โคลนและดาวน์โหลดที่เก็บนี้ในสภาพแวดล้อม conda ที่ติดตั้ง PyTorch/CUDA
ทำงานในไดเรกทอรีบนสุด:
pip install -e .
เยี่ยมชมเว็บไซต์ Meta Llama และลงทะเบียนเพื่อดาวน์โหลดโมเดลต่างๆ
หลังจากลงทะเบียนแล้ว คุณจะได้รับอีเมลพร้อม URL สำหรับดาวน์โหลดโมเดล คุณจะต้องมี URL นี้เมื่อเรียกใช้สคริปต์ download.sh
เมื่อคุณได้รับอีเมล ให้ไปที่พื้นที่เก็บข้อมูลลามะที่คุณดาวน์โหลดและเรียกใช้สคริปต์ download.sh
หลังจากดาวน์โหลดโมเดลที่ต้องการแล้ว คุณสามารถรันโมเดลภายในเครื่องได้โดยใช้คำสั่งต่อไปนี้:
torchrun --nproc_per_node 1 example_chat_completion.py
--ckpt_dir Meta-Llama-3-8B-Instruct/
--tokenizer_path Meta-Llama-3-8B-Instruct/tokenizer.model
--max_seq_len 512 --max_batch_size 6
สังเกต
Meta-Llama-3-8B-Instruct/
ด้วยเส้นทางไดเรกทอรีจุดตรวจของคุณและ Meta-Llama-3-8B-Instruct/tokenizer.model
ด้วยเส้นทางโมเดลโทเค็นของคุณ–nproc_per_node
ควรตั้งค่าเป็นค่า MP ของโมเดลที่คุณใช้max_seq_len
และ max_batch_size
ตามต้องการโมเดลที่ต่างกันต้องการค่าโมเดลความขนาน (MP) ที่แตกต่างกัน:
แบบอย่าง | ส.ส |
---|---|
8B | 1 |
70B | 8 |
ทุกรุ่นรองรับความยาวลำดับสูงสุด 8192 โทเค็น แต่เราจัดสรรแคชล่วงหน้าตามค่าของ max_seq_len
และ max_batch_size
ดังนั้นให้ตั้งค่าเหล่านี้ตามฮาร์ดแวร์ของคุณ
โมเดลเหล่านี้ไม่ได้ปรับแต่งมาเพื่อการแชทหรือการถามตอบ ควรตั้งค่าพรอมต์เพื่อให้คำตอบที่คาดหวังมีความต่อเนื่องตามธรรมชาติของพรอมต์
ดู example_text_completion.py
สำหรับตัวอย่างบางส่วน สำหรับภาพประกอบ โปรดดูคำสั่งด้านล่างเพื่อเรียกใช้โดยใช้โมเดล llama-3-8b (ต้องตั้ง nproc_per_node
เป็นค่า MP
):
torchrun --nproc_per_node 1 example_text_completion.py --ckpt_dir Meta-Llama-3-8B/ --tokenizer_path Meta-Llama-3-8B/tokenizer.model --max_seq_len 128 --max_batch_size 4
โมเดลที่ได้รับการปรับแต่งอย่างละเอียดได้รับการฝึกฝนสำหรับการใช้งานด้านการสนทนา เพื่อให้ได้คุณลักษณะและประสิทธิภาพที่คาดหวัง พวกเขาจะต้องปฏิบัติตามรูปแบบเฉพาะที่กำหนดไว้ใน ChatFormat
: ข้อความแจ้งเริ่มต้นด้วยโทเค็นพิเศษ <|begin_of_text|>
ตามด้วยข้อความหนึ่งข้อความขึ้นไป แต่ละข้อความเริ่มต้นด้วยแท็ก <|start_header_id|>
มีบทบาทของ system
user
หรือ assistant
และลงท้ายด้วยแท็ก <|end_header_id|>
หลังจากขึ้นบรรทัดใหม่สองครั้ง nn
เนื้อหาของข้อความจะตามมา ส่วนท้ายของแต่ละข้อความจะถูกทำเครื่องหมายด้วยโทเค็น <|eot_id|>
คุณยังสามารถใช้ตัวแยกประเภทเพิ่มเติมเพื่อกรองอินพุตและเอาต์พุตที่ถือว่าไม่ปลอดภัยได้ ดูตัวอย่างในที่เก็บ llama-recipes เกี่ยวกับวิธีเพิ่มตัวตรวจสอบความปลอดภัยให้กับอินพุตและเอาต์พุตของโค้ดการอนุมานของคุณ
ตัวอย่างการใช้ llama-3-8b-chat:
torchrun --nproc_per_node 1 example_chat_completion.py --ckpt_dir Meta-Llama-3-8B-Instruct/ --tokenizer_path Meta-Llama-3-8B-Instruct/tokenizer.model --max_seq_len 512 --max_batch_size 6
Llama 3 เป็นเทคโนโลยีใหม่และมาพร้อมกับความเสี่ยงที่อาจเกิดขึ้น การทดสอบที่ดำเนินการจนถึงขณะนี้ยังไม่ครอบคลุมทุกสถานการณ์ และไม่สามารถครอบคลุมทุกสถานการณ์ได้ เพื่อช่วยนักพัฒนาจัดการกับความเสี่ยงเหล่านี้ เราได้สร้างแนวทางการใช้งานอย่างมีความรับผิดชอบ
โปรดรายงาน "ข้อบกพร่อง" ของซอฟต์แวร์หรือปัญหาอื่น ๆ เกี่ยวกับโมเดลผ่านวิธีใดวิธีหนึ่งต่อไปนี้:
ดู MODEL_CARD.md
แบบจำลองและตุ้มน้ำหนักของเราได้รับอนุญาตสำหรับนักวิจัยและหน่วยงานเชิงพาณิชย์ โดยยึดตามหลักการแบบเปิด ภารกิจของเราคือการเสริมศักยภาพบุคคลและอุตสาหกรรมผ่านโอกาสนี้ ในขณะเดียวกันก็ส่งเสริมสภาพแวดล้อมของการค้นพบและความก้าวหน้าทางจริยธรรมของ AI
โปรดตรวจสอบเอกสารใบอนุญาต รวมถึงนโยบายการใช้งานที่ยอมรับได้ของเรา
สำหรับคำถามที่พบบ่อย สามารถดูคำถามที่พบบ่อยได้ที่นี่ https://llama.meta.com/faq ซึ่งจะมีการอัปเดตอย่างต่อเนื่องเมื่อมีคำถามใหม่เกิดขึ้น