ขอบคุณสำหรับการพัฒนากับนางแบบ Llama ในฐานะที่เป็นส่วนหนึ่งของการเปิดตัว Llama 3.1 เราได้รวม repos GitHub และเพิ่ม repos เพิ่มเติมบางส่วนเมื่อเราขยายการทำงานของ Llama ให้กลายเป็นสแต็ก E2E Llama โปรดใช้ repos ต่อไปนี้ในอนาคต:
หากคุณมีคำถามใด ๆ โปรดอย่าลังเลที่จะยื่นปัญหาเกี่ยวกับ repos ข้างต้นและเราจะพยายามอย่างเต็มที่เพื่อตอบสนองในเวลาที่เหมาะสม
ขอบคุณ!
เรากำลังปลดล็อคพลังของแบบจำลองภาษาขนาดใหญ่ ตอนนี้ Llama 2 สามารถเข้าถึงได้สำหรับบุคคลผู้สร้างนักวิจัยและธุรกิจทุกขนาดเพื่อให้พวกเขาสามารถทดลองสร้างสรรค์และขยายความคิดของพวกเขาอย่างรับผิดชอบ
รุ่นนี้รวมถึงน้ำหนักของรุ่นและรหัสเริ่มต้นสำหรับรุ่นภาษา Llama ที่ผ่านการฝึกอบรมล่วงหน้าและปรับแต่งได้ตั้งแต่พารามิเตอร์ 7B ถึง 70B
ที่เก็บนี้มีวัตถุประสงค์เพื่อเป็นตัวอย่างน้อยที่สุดในการโหลดรุ่น Llama 2 และเรียกใช้การอนุมาน สำหรับตัวอย่างรายละเอียดเพิ่มเติมที่ใช้ประโยชน์จากใบหน้ากอดดู Llama-Recipes
ดู updates.md นอกจากนี้สำหรับรายการคำถามที่พบบ่อยดูที่นี่
ในการดาวน์โหลดน้ำหนักรุ่นและ tokenizer กรุณาเยี่ยมชมเว็บไซต์ Meta และยอมรับใบอนุญาตของเรา
เมื่อคำขอของคุณได้รับการอนุมัติแล้วคุณจะได้รับ URL ที่ลงนามผ่านอีเมล จากนั้นเรียกใช้สคริปต์ download.sh ผ่าน URL ที่ให้ไว้เมื่อได้รับแจ้งให้เริ่มการดาวน์โหลด
สิ่งที่ต้องทำล่วงหน้า: ตรวจสอบให้แน่ใจว่าคุณติดตั้ง wget
และ md5sum
จากนั้นเรียกใช้สคริปต์: ./download.sh
โปรดทราบว่าลิงก์จะหมดอายุหลังจาก 24 ชั่วโมงและดาวน์โหลดจำนวนหนึ่ง หากคุณเริ่มเห็นข้อผิดพลาดเช่น 403: Forbidden
คุณสามารถขอลิงค์ได้อีกครั้ง
นอกจากนี้เรายังให้การดาวน์โหลดบน Hugging Face คุณสามารถขอการเข้าถึงโมเดลโดยรับใบอนุญาตและกรอกแบบฟอร์มในการ์ดโมเดลของ repo หลังจากทำเช่นนี้คุณควรเข้าถึงรุ่น Llama ทั้งหมดของเวอร์ชัน (รหัส Llama, Llama 2 หรือ Llama Guard) ภายใน 1 ชั่วโมง
คุณสามารถทำตามขั้นตอนด้านล่างเพื่อขึ้นและทำงานกับรุ่น Llama 2 ได้อย่างรวดเร็ว ขั้นตอนเหล่านี้จะช่วยให้คุณทำงานได้อย่างรวดเร็วในพื้นที่ สำหรับตัวอย่างเพิ่มเติมดูที่เก็บสูตร Llama 2 สูตร
ใน conda env กับ pytorch / cuda ที่มีโคลนที่มีอยู่และดาวน์โหลดที่เก็บนี้
ในไดเรกทอรีระดับบนสุด:
pip install -e .
เยี่ยมชมเว็บไซต์ Meta และลงทะเบียนเพื่อดาวน์โหลดรุ่น/s
เมื่อลงทะเบียนแล้วคุณจะได้รับอีเมลพร้อม URL เพื่อดาวน์โหลดรุ่น คุณจะต้องใช้ URL นี้เมื่อคุณเรียกใช้สคริปต์ Download.sh
เมื่อคุณได้รับอีเมลนำทางไปยังที่เก็บ Llama ที่ดาวน์โหลดมาแล้วและเรียกใช้สคริปต์ Download.sh
เมื่อดาวน์โหลดโมเดล/s คุณสามารถเรียกใช้งานได้แล้วคุณสามารถเรียกใช้โมเดลในเครื่องโดยใช้คำสั่งด้านล่าง:
torchrun --nproc_per_node 1 example_chat_completion.py
--ckpt_dir llama-2-7b-chat/
--tokenizer_path tokenizer.model
--max_seq_len 512 --max_batch_size 6
บันทึก
llama-2-7b-chat/
ด้วยเส้นทางไปยังไดเรกทอรีจุดตรวจสอบของคุณและ tokenizer.model
ด้วยเส้นทางไปยังโมเดล Tokenizer ของคุณ–nproc_per_node
ควรตั้งค่าเป็นค่า MP สำหรับรุ่นที่คุณใช้max_seq_len
และ max_batch_size
ตามต้องการโมเดลที่แตกต่างกันต้องการค่าโมเดลขนาน (MP) ที่แตกต่างกัน:
แบบอย่าง | ส.ส. |
---|---|
7b | 1 |
13B | 2 |
70b | 8 |
ทุกรุ่นรองรับความยาวลำดับสูงถึง 4096 โทเค็น แต่เราจัดสรรแคชล่วงหน้าตามค่า max_seq_len
และ max_batch_size
ดังนั้นตั้งค่าเหล่านั้นตามฮาร์ดแวร์ของคุณ
โมเดลเหล่านี้ไม่ได้รับการสนับสนุนสำหรับการแชทหรือถาม - ตอบ พวกเขาควรได้รับแจ้งเพื่อให้คำตอบที่คาดหวังคือความต่อเนื่องตามธรรมชาติของพรอมต์
ดู example_text_completion.py
สำหรับตัวอย่างบางส่วน หากต้องการแสดงให้เห็นคำสั่งด้านล่างเพื่อเรียกใช้กับรุ่น LLAMA-2-7B ( nproc_per_node
จะต้องตั้งค่าเป็นค่า MP
):
torchrun --nproc_per_node 1 example_text_completion.py
--ckpt_dir llama-2-7b/
--tokenizer_path tokenizer.model
--max_seq_len 128 --max_batch_size 4
โมเดลที่ได้รับการปรับแต่งได้รับการฝึกฝนสำหรับแอปพลิเคชันบทสนทนา เพื่อให้ได้คุณสมบัติและประสิทธิภาพที่คาดหวังสำหรับพวกเขาการจัดรูปแบบเฉพาะที่กำหนดไว้ใน chat_completion
จะต้องมีการติดตามรวมถึงแท็ก INST
และ <<SYS>>
, โทเค็น BOS
และ EOS
และช่องว่างและ breaklines ระหว่าง (เราขอแนะนำให้เรียก strip()
บนอินพุตเพื่อหลีกเลี่ยงพื้นที่สองเท่า)
นอกจากนี้คุณยังสามารถปรับใช้ตัวแยกประเภทเพิ่มเติมสำหรับการกรองอินพุตและเอาต์พุตที่ถือว่าไม่ปลอดภัย ดู repo llama-recipes สำหรับตัวอย่างของวิธีการเพิ่มตัวตรวจสอบความปลอดภัยให้กับอินพุตและเอาต์พุตของรหัสการอนุมานของคุณ
ตัวอย่างที่ใช้ llama-2-7b-chat:
torchrun --nproc_per_node 1 example_chat_completion.py
--ckpt_dir llama-2-7b-chat/
--tokenizer_path tokenizer.model
--max_seq_len 512 --max_batch_size 6
Llama 2 เป็นเทคโนโลยีใหม่ที่มีความเสี่ยงที่อาจเกิดขึ้นกับการใช้งาน การทดสอบที่ดำเนินการจนถึงปัจจุบันไม่ได้ - และไม่สามารถ - ครอบคลุมทุกสถานการณ์ เพื่อช่วยให้นักพัฒนาจัดการกับความเสี่ยงเหล่านี้เราได้สร้างคู่มือการใช้งานที่รับผิดชอบ รายละเอียดเพิ่มเติมสามารถพบได้ในรายงานการวิจัยของเราเช่นกัน
โปรดรายงานซอฟต์แวร์“ ข้อผิดพลาด” หรือปัญหาอื่น ๆ กับโมเดลผ่านวิธีการหนึ่งต่อไปนี้:
ดู model_card.md
แบบจำลองและน้ำหนักของเราได้รับใบอนุญาตสำหรับทั้งนักวิจัยและหน่วยงานเชิงพาณิชย์เพื่อสนับสนุนหลักการของการเปิดกว้าง ภารกิจของเราคือการเพิ่มขีดความสามารถของบุคคลและอุตสาหกรรมผ่านโอกาสนี้ในขณะที่ส่งเสริมสภาพแวดล้อมของการค้นพบและความก้าวหน้าทางจริยธรรม AI
ดูไฟล์ใบอนุญาตรวมถึงนโยบายการใช้งานที่ยอมรับได้ของเรา
สำหรับคำถามทั่วไปคำถามที่พบบ่อยสามารถพบได้ที่นี่ซึ่งจะได้รับการปรับปรุงให้ทันสมัยเมื่อเวลาผ่านไปเมื่อมีคำถามใหม่เกิดขึ้น
repo สำหรับการเปิดตัว Llama ดั้งเดิมอยู่ในสาขา llama_v1