- นางแบบกอดหน้า | บล็อก | เว็บไซต์ | เริ่มต้นเลย
ขอบคุณที่พัฒนากับโมเดลลามะ ในฐานะส่วนหนึ่งของการเปิดตัว Llama 3.1 เราได้รวม repos GitHub และเพิ่ม repos เพิ่มเติมบางส่วนในขณะที่เราได้ขยายฟังก์ชันการทำงานของ Llama ให้เป็น e2e Llama Stack โปรดใช้ repos ต่อไปนี้นับจากนี้เป็นต้นไป:
llama-models - แหล่งซื้อคืนส่วนกลางสำหรับโมเดลพื้นฐาน รวมถึงยูทิลิตี้พื้นฐาน การ์ดโมเดล ใบอนุญาต และนโยบายการใช้งาน
PurpleLlama - องค์ประกอบสำคัญของ Llama Stack ที่เน้นไปที่ความเสี่ยงด้านความปลอดภัยและการลดเวลาในการอนุมาน
llama-toolchain - อินเทอร์เฟซการพัฒนาโมเดล (การอนุมาน / การปรับแต่ง / การป้องกันความปลอดภัย / การสร้างข้อมูลสังเคราะห์) และการใช้งานตามรูปแบบบัญญัติ
llama-agentic-system - ระบบ Llama Stack แบบสแตนด์อโลน E2E พร้อมด้วยอินเทอร์เฟซพื้นฐานที่ได้รับความคิดเห็น ซึ่งช่วยให้สามารถสร้างแอปพลิเคชันเอเจนต์ได้
llama-recipes - สคริปต์และการบูรณาการที่ขับเคลื่อนโดยชุมชน
หากคุณมีคำถามใดๆ โปรดอย่าลังเลที่จะยื่นเรื่องใน repos ข้างต้น และเราจะพยายามอย่างเต็มที่เพื่อตอบกลับในเวลาที่เหมาะสม
ขอบคุณ!
เรากำลังปลดล็อกพลังของโมเดลภาษาขนาดใหญ่ Llama เวอร์ชันล่าสุดของเราเปิดให้เข้าถึงแล้วสำหรับบุคคล ผู้สร้าง นักวิจัย และธุรกิจทุกขนาด เพื่อให้พวกเขาสามารถทดลอง สร้างสรรค์ และปรับขนาดแนวคิดของตนได้อย่างมีความรับผิดชอบ
รุ่นนี้ประกอบด้วยน้ำหนักโมเดลและโค้ดเริ่มต้นสำหรับโมเดลภาษา Llama 3 ที่ได้รับการฝึกอบรมล่วงหน้าและปรับแต่งตามคำสั่ง รวมถึงขนาดพารามิเตอร์ 8B ถึง 70B
พื้นที่เก็บข้อมูลนี้เป็นตัวอย่างขั้นต่ำของการโหลดโมเดล Llama 3 และการอนุมานที่กำลังรันอยู่ สำหรับตัวอย่างโดยละเอียดเพิ่มเติม โปรดดู llama-recipes
หากต้องการดาวน์โหลดน้ำหนักโมเดลและโทเค็นไนเซอร์ โปรดไปที่เว็บไซต์ Meta Llama และยอมรับใบอนุญาตของเรา
เมื่อคำขอของคุณได้รับการอนุมัติ คุณจะได้รับ URL ที่ลงนามทางอีเมล จากนั้นรันสคริปต์ download.sh โดยส่ง URL ที่ให้ไว้เมื่อได้รับแจ้งให้เริ่มการดาวน์โหลด
ข้อกำหนดเบื้องต้น: ตรวจสอบให้แน่ใจว่าคุณได้ติดตั้ง wget
และ md5sum
แล้ว จากนั้นรันสคริปต์: ./download.sh
โปรดจำไว้ว่าลิงก์จะหมดอายุหลังจากผ่านไป 24 ชั่วโมงและมีการดาวน์โหลดตามจำนวนหนึ่ง คุณสามารถขอลิงก์ใหม่ได้ตลอดเวลา หากคุณเริ่มเห็นข้อผิดพลาด เช่น 403: Forbidden
นอกจากนี้เรายังมีการดาวน์โหลดบน Hugging Face ทั้งในรูปแบบ Transformers และ Native llama3
หากต้องการดาวน์โหลดตุ้มน้ำหนักจาก Hugging Face โปรดทำตามขั้นตอนเหล่านี้:
เยี่ยมชมหนึ่งใน repos เช่น meta-llama/Meta-Llama-3-8B-Instruct
อ่านและยอมรับใบอนุญาต เมื่อคำขอของคุณได้รับการอนุมัติ คุณจะได้รับสิทธิ์ในการเข้าถึงโมเดล Llama 3 ทั้งหมด โปรดทราบว่าคำขอจะใช้เวลาดำเนินการถึงหนึ่งชั่วโมง
หากต้องการดาวน์โหลดน้ำหนักดั้งเดิมดั้งเดิมเพื่อใช้กับ repo นี้ ให้คลิกแท็บ "ไฟล์และเวอร์ชัน" และดาวน์โหลดเนื้อหาของโฟลเดอร์ original
คุณยังสามารถดาวน์โหลดได้จากบรรทัดคำสั่งหากคุณ pip install huggingface-hub
:
Huggingface-cli ดาวน์โหลด meta-llama/Meta-Llama-3-8B-Instruct -- รวม "ต้นฉบับ/*" --local-dir meta-llama/Meta-Llama-3-8B-Instruct
หากต้องการใช้กับหม้อแปลง ข้อมูลโค้ดไปป์ไลน์ต่อไปนี้จะดาวน์โหลดและแคชน้ำหนัก:
นำเข้า Transformersimport torchmodel_id = "meta-llama/Meta-Llama-3-8B-Instruct"pipeline = Transformers.pipeline( "text-generator", model="meta-llama/Meta-Llama-3-8B-Instruct", model_kwargs ={"torch_dtype": torch.bfloat16}, อุปกรณ์ = "cuda", -
คุณสามารถทำตามขั้นตอนด้านล่างเพื่อเริ่มต้นใช้งานรุ่น Llama 3 ได้อย่างรวดเร็ว ขั้นตอนเหล่านี้จะช่วยให้คุณเรียกใช้การอนุมานอย่างรวดเร็วภายในเครื่องได้ สำหรับตัวอย่างเพิ่มเติม โปรดดูที่เก็บสูตรอาหารลามะ
โคลนและดาวน์โหลดที่เก็บนี้ใน conda env ด้วย PyTorch / CUDA
ในไดเร็กทอรีระดับบนสุดให้รัน:
pip ติดตั้ง -e
เยี่ยมชมเว็บไซต์ Meta Llama และลงทะเบียนเพื่อดาวน์โหลดโมเดล
เมื่อลงทะเบียนแล้ว คุณจะได้รับอีเมลพร้อม URL สำหรับดาวน์โหลดโมเดล คุณจะต้องมี URL นี้เมื่อคุณเรียกใช้สคริปต์ download.sh
เมื่อคุณได้รับอีเมล ให้ไปที่พื้นที่เก็บข้อมูลลามะที่คุณดาวน์โหลดไว้ และเรียกใช้สคริปต์ download.sh
ตรวจสอบให้แน่ใจว่าได้ให้สิทธิ์ในการดำเนินการแก่สคริปต์ download.sh
ในระหว่างกระบวนการนี้ คุณจะได้รับแจ้งให้ป้อน URL จากอีเมล
อย่าใช้ตัวเลือก "คัดลอกลิงก์" คัดลอกลิงก์จากอีเมลด้วยตนเอง
เมื่อดาวน์โหลดโมเดลที่คุณต้องการแล้ว คุณสามารถรันโมเดลในเครื่องได้โดยใช้คำสั่งด้านล่าง:
torchrun --nproc_per_node 1 example_chat_completion.py --ckpt_dir Meta-Llama-3-8B-Instruct/ --tokenizer_path Meta-Llama-3-8B-Instruct/tokenizer.model --max_seq_len 512 --max_batch_size 6
บันทึก
แทนที่ Meta-Llama-3-8B-Instruct/
ด้วยพาธไปยังไดเร็กทอรีจุดตรวจของคุณและ Meta-Llama-3-8B-Instruct/tokenizer.model
ด้วยพาธไปยังโมเดลโทเค็นของคุณ
–nproc_per_node
ควรตั้งค่าเป็นค่า MP สำหรับรุ่นที่คุณใช้
ปรับพารามิเตอร์ max_seq_len
และ max_batch_size
ตามต้องการ
ตัวอย่างนี้รัน example_chat_completion.py ที่พบในที่เก็บนี้ แต่คุณสามารถเปลี่ยนเป็นไฟล์ .py อื่นได้
รุ่นต่างๆ ต้องใช้ค่ารุ่น-ขนาน (MP) ที่แตกต่างกัน:
แบบอย่าง | ส.ส |
---|---|
8B | 1 |
70B | 8 |
ทุกรุ่นรองรับความยาวลำดับสูงสุด 8192 โทเค็น แต่เราจัดสรรแคชล่วงหน้าตามค่า max_seq_len
และ max_batch_size
ดังนั้นตั้งค่าสิ่งเหล่านั้นตามฮาร์ดแวร์ของคุณ
โมเดลเหล่านี้ไม่ได้รับการปรับแต่งสำหรับการแชทหรือการถามตอบ ควรได้รับแจ้งเพื่อให้คำตอบที่คาดหวังนั้นเป็นความต่อเนื่องตามธรรมชาติของข้อความแจ้ง
ดู example_text_completion.py
สำหรับตัวอย่างบางส่วน เพื่อแสดงให้เห็น โปรดดูคำสั่งด้านล่างเพื่อรันด้วยโมเดล llama-3-8b ( nproc_per_node
จำเป็นต้องตั้งค่าเป็นค่า MP
):
torchrun --nproc_per_node 1 example_text_completion.py --ckpt_dir Meta-Llama-3-8B/ --tokenizer_path Meta-Llama-3-8B/tokenizer.model --max_seq_len 128 --max_batch_size 4
โมเดลที่ได้รับการปรับแต่งอย่างละเอียดได้รับการฝึกอบรมสำหรับการใช้งานบทสนทนา เพื่อให้ได้คุณสมบัติและประสิทธิภาพตามที่คาดหวัง จะต้องปฏิบัติตามการจัดรูปแบบเฉพาะที่กำหนดไว้ใน ChatFormat
: ข้อความแจ้งจะเริ่มต้นด้วยโทเค็นพิเศษ <|begin_of_text|>
หลังจากนั้นจะมีข้อความหนึ่งข้อความขึ้นไปตามมา แต่ละข้อความเริ่มต้นด้วยแท็ก <|start_header_id|>
system
บทบาท user
หรือ assistant
และแท็ก <|end_header_id|>
หลังจากขึ้นบรรทัดใหม่สองครั้ง nn
เนื้อหาของข้อความจะตามมา ส่วนท้ายของแต่ละข้อความจะถูกทำเครื่องหมายด้วยโทเค็น <|eot_id|>
คุณยังสามารถปรับใช้ตัวแยกประเภทเพิ่มเติมเพื่อกรองอินพุตและเอาต์พุตที่ถือว่าไม่ปลอดภัยออก ดู repo llama-recipes สำหรับตัวอย่างวิธีเพิ่มตัวตรวจสอบความปลอดภัยให้กับอินพุตและเอาต์พุตของโค้ดการอนุมานของคุณ
ตัวอย่างการใช้ llama-3-8b-chat:
torchrun --nproc_per_node 1 example_chat_completion.py --ckpt_dir Meta-Llama-3-8B-Instruct/ --tokenizer_path Meta-Llama-3-8B-Instruct/tokenizer.model --max_seq_len 512 --max_batch_size 6
Llama 3 เป็นเทคโนโลยีใหม่ที่มีความเสี่ยงที่อาจเกิดขึ้นกับการใช้งาน การทดสอบที่ดำเนินการจนถึงปัจจุบันยังไม่ครอบคลุมทุกสถานการณ์และไม่สามารถครอบคลุมทุกสถานการณ์ได้ เพื่อช่วยนักพัฒนาจัดการกับความเสี่ยงเหล่านี้ เราได้สร้างคู่มือการใช้งานอย่างมีความรับผิดชอบ
โปรดรายงาน "ข้อบกพร่อง" ของซอฟต์แวร์หรือปัญหาอื่น ๆ เกี่ยวกับโมเดลดังกล่าวด้วยวิธีใดวิธีหนึ่งต่อไปนี้:
การรายงานปัญหาเกี่ยวกับโมเดล: https://github.com/meta-llama/llama3/issues
การรายงานเนื้อหาที่มีความเสี่ยงที่สร้างโดยโมเดล:developers.facebook.com/llama_output_feedback
รายงานข้อบกพร่องและข้อกังวลด้านความปลอดภัย: facebook.com/whitehat/info
ดู MODEL_CARD.md
แบบจำลองและตุ้มน้ำหนักของเราได้รับอนุญาตสำหรับนักวิจัยและหน่วยงานเชิงพาณิชย์ โดยยึดถือหลักการของการเปิดกว้าง ภารกิจของเราคือการเสริมศักยภาพบุคคลและอุตสาหกรรมผ่านโอกาสนี้ ในขณะเดียวกันก็ส่งเสริมสภาพแวดล้อมของการค้นพบและความก้าวหน้าทางจริยธรรมของ AI
ดูไฟล์ใบอนุญาต รวมถึงนโยบายการใช้งานที่ยอมรับได้ที่มาพร้อมกับเรา
สำหรับคำถามทั่วไป สามารถดูคำถามที่พบบ่อยได้ที่นี่ ซึ่งจะมีการอัปเดตเมื่อเวลาผ่านไปเมื่อมีคำถามใหม่เกิดขึ้น