ดาวน์โหลด Firefly - ดาวน์โหลด Firefly ซอร์สโค้ด

Firefly: เครื่องมือฝึกโมเดลขนาดใหญ่แบบครบวงจร

ยินดีต้อนรับสู่กลุ่มแลกเปลี่ยนเทคโนโลยีโมเดลขนาดใหญ่ของ Firefly ติดตามบัญชีอย่างเป็นทางการของเรา และคลิกปุ่มเข้าร่วมกลุ่ม

ยินดีต้อนรับติดตาม Zhihu ของเราเพื่อการสื่อสารและการสนทนา: ฝนแดงกำลังเท

แนะนำโครงการ

Firefly เป็นโครงการฝึกอบรมโมเดลขนาดใหญ่แบบโอเพ่นซอร์สที่รองรับการฝึกอบรมล่วงหน้า การปรับแต่งคำสั่งอย่างละเอียด และ DPO สำหรับโมเดลขนาดใหญ่ทั่วไป รวมถึงแต่ไม่จำกัดเพียง Qwen2, Yi-1.5, Llama3, Gemma, Qwen1.5, MiniCPM, MiniCPM3, Lla ma, InternLM, Baichuan, ChatGLM, Yi, Deepseek, Qwen, Orion, Ziya, Xverse, Mistral, Mixtral-8x7B, Zephyr, Vicuna, Bloom ฯลฯ โปรเจ็กต์นี้สนับสนุน การฝึกอบรมพารามิเตอร์เต็มรูปแบบ, การฝึกอบรมที่มีประสิทธิภาพ LoRA, QLoRA และสนับสนุน การฝึกอบรมล่วงหน้า, SFT และ DPO หากทรัพยากรการฝึกอบรมของคุณมีจำกัด เราขอแนะนำอย่างยิ่งให้ใช้ QLoRA สำหรับการปรับแต่งคำสั่งอย่างละเอียด เนื่องจากเราได้ตรวจสอบประสิทธิภาพของวิธีนี้บนกระดานผู้นำ Open LLM และได้ผลลัพธ์ที่ดีมาก

?เนื้อหาหลักของโครงการนี้มีดังนี้:

? รองรับการฝึกอบรมล่วงหน้า, การปรับแต่งคำสั่งอย่างละเอียด, DPO, การฝึกอบรมพารามิเตอร์เต็มรูปแบบ, LoRA และการฝึกอบรมที่มีประสิทธิภาพ QLoRA ด้วยการฝึกโมเดลต่างๆ ผ่านไฟล์การกำหนดค่า มือใหม่สามารถเริ่มต้นโมเดลการฝึกได้อย่างรวดเร็ว
? รองรับการใช้ Unsloth เพื่อเร่งการฝึกและบันทึกหน่วยความจำวิดีโอ
? รองรับโมเดลโอเพ่นซอร์สขนาดใหญ่ส่วนใหญ่ เช่น Llama3, Gemma, MiniCPM, Llama, InternLM, Baichuan, ChatGLM, Yi, Deepseek, Qwen, Orion, Ziya, Xverse, Mistral, Mixtral-8x7B, Zephyr, Vicuna, Bloom, ในระหว่าง การฝึกอบรมจะสอดคล้องกับเทมเพลตของการแชทอย่างเป็นทางการแต่ละรุ่น
จัดระเบียบและปรับแต่งชุดข้อมูลคำสั่งโอเพ่นซอร์ส: firefly-train-1.1M, moss-003-sft-data, ultrachat, WizardLM_evol_instruct_V2_143k, school_math_0.25M
? ชุดคำสั่งโอเพ่นซอร์ส Firefly เพื่อปรับแต่งน้ำหนักโมเดล
? ประสิทธิผลของกระบวนการฝึกอบรม QLoRA ได้รับการตรวจสอบแล้วบน Open LLM Leaderboard

เวอร์ชันปัจจุบันได้รับการปรับให้เข้ากับเทมเพลตของรูปแบบการแชทที่แตกต่างกัน และมีการอัปเดตที่สำคัญในโค้ด หากคุณต้องการเวอร์ชันก่อนหน้า คุณสามารถดาวน์โหลดโค้ด v0.0.1-alpha

ข่าว

PR ของโครงสร้างโมเดล Unsloth x Qwen2 ได้ถูกรวมเข้ากับสาขาหลักของ Unsloth แล้ว
Extended Unsloth เพื่อรองรับโครงสร้างโมเดล Qwen2 รวมถึงโมเดล Qwen1.5 series Dense ฐานโค้ด: Unsloth บทความทางเทคนิค
รองรับ Unsloth การฝึกอบรม Llama3-8B ต้องการหน่วยความจำวิดีโอเพียง 7.75GB ซึ่งสามารถลดการใช้หน่วยความจำวิดีโอลง 42.58% และเวลาฝึกอบรมลง 30.72% ทบทวนการรับการฝึกอบรม
เพิ่มประสิทธิภาพกระบวนการฝึกอบรม สนับสนุนการฝึกอบรมเต็มรูปแบบ LoRA, การฝึกอบรมที่มีประสิทธิภาพ QLoRA สนับสนุนการฝึกอบรมล่วงหน้า การปรับแต่งคำสั่งโดยละเอียด และ DPO การปรับแต่งคำสั่งอย่างละเอียดและเทมเพลต DPO นั้นสอดคล้องกับรูปแบบการแชทดั้งเดิม และรองรับโมเดลโอเพ่นซอร์สส่วนใหญ่ รวมถึง Gemma, MiniCPM, Llama, InternLM, Baichuan, ChatGLM, Yi, Deepseek, Qwen, Orion, Ziya, Xverse, Mistral, Mixtral - 8x7B, เซเฟอร์, วิคูน่า, บลูม ฯลฯ
รุ่นโอเพ่นซอร์ส firefly-mixtral-8x7b มีคะแนน 70.34 ในการจัดอันดับ Open LLM ซึ่งเหนือกว่ารุ่นต่างๆ เช่น Yi-34B, Llama2-65B-Chat, Qwen-14B และ Vicuna-33B-v1.3
โอเพ่นซอร์ส LongQLoRA, [รายงานทางเทคนิค] มันสามารถขยายความยาวบริบทของ LLama ได้อย่างมีประสิทธิภาพ โดยขยายความยาว Llama2 เป็น 8k (และยังเป็น 12k) บน V100 ขนาด 32GB ตัวเดียว ด้วยการปรับแต่งอย่างละเอียดเพียง 1,000 ขั้นตอน ความงุนงงของชุดข้อมูล PG19 และ Proof-pile นั้นดีกว่า LongLoRA และบน PG19 ดีกว่า MPT-7B-8K เล็กน้อย
โปรเจ็กต์โอเพ่นซอร์ส Firefly-LLaMA2-ภาษาจีน ได้รับการฝึกฝนอย่างมีประสิทธิภาพบน 4*V100 หลังจากการขยายคำศัพท์ภาษาจีน การฝึกอบรมล่วงหน้าเพิ่มเติม และการปรับแต่งการสอนหลายรอบ มันเหนือกว่า Linly, Yayi, FlagAlpha ฯลฯ บน CMMLU และ ทัดเทียมกับ Ziya การแสดงของ Chinese-Alpaca นั้นค่อนข้างราบเรียบ
firefly-baichuan2-13b แบบโอเพ่นซอร์สอยู่ในอันดับที่ 8 ในรายการ CMMLU ของ OpenCompass ด้วยคะแนน 56.83 ซึ่งต่ำกว่ารุ่น Chat อย่างเป็นทางการของ Baichuan เล็กน้อยที่ 1.57 คะแนน
firefly-llama-30b แบบโอเพ่นซอร์ส อยู่ในอันดับที่ 10 ในบรรดาโมเดลที่มีขนาดเท่ากัน ด้วยคะแนน 64.83 ในรายการจัดอันดับ Open LLM
firefly-llama2-13b แบบโอเพ่นซอร์ส อยู่ในอันดับที่สามในบรรดา โมเดลที่มีขนาดเท่ากัน โดยมีคะแนน 62 คะแนนในการจัดอันดับ Open LLM ซึ่งต่ำกว่าอันดับบนสุดเล็กน้อย 0.5 คะแนน
โอเพ่นซอร์ส firefly-llama-13b เป็นแบบจำลองของ Vicuna-13B ในการจัดอันดับ Open LLM ของ Hugging Face ซึ่งสูงกว่า Vicuna-13b-1.1 เล็กน้อย 0.2 คะแนน และต่ำกว่า llams-2-13b-chat เล็กน้อย 0.5 คะแนน
LLMPruner: เครื่องมือตัดโมเดลภาษาขนาดใหญ่, โอเพ่นซอร์สตัดน้ำหนักโมเดล Bloom

โครงการที่เกี่ยวข้อง

หิ่งห้อย-LLaMA2-จีน: โมเดล Llama2 ภาษาจีน ซึ่งดำเนินการขยายคำศัพท์ภาษาจีน การฝึกอบรมล่วงหน้าแบบเพิ่มเติม และการปรับแต่งการสอนอย่างละเอียดบน Llama2
LongQLoRA: โปรเจ็กต์ขยายความยาวโมเดลขนาดใหญ่ ซึ่งสามารถขยายความยาวของ LLaMA-13B เป็น 8192 บนการ์ด V100 เพียงใบเดียว และประสิทธิภาพใกล้เคียงกับ MPT-8K
LLMPruner: คำศัพท์ของ Prune Bloom เพื่อลดจำนวนพารามิเตอร์โมเดล

บล็อกเทคโนโลยี

บล็อกเทคโนโลยี

Unsloth x Qwen2 เร่งความเร็วขึ้น 47.32% ประหยัดหน่วยความจำวิดีโอถึง 39.13% โดยต้องใช้หน่วยความจำวิดีโออย่างน้อย 8.43GB
Unsloth ปรับแต่ง Llama3-8B เร่งความเร็วขึ้น 44.35% ประหยัดหน่วยความจำวิดีโอ 42.58% โดยต้องใช้หน่วยความจำวิดีโออย่างน้อย 7.75GB
การทดลองเปรียบเทียบระหว่างการสลายทางจิตและพื้นฐานที่แข็งแกร่ง ช่องว่างนั้นชัดเจน
คำถามและการคาดเดาบางประการเกี่ยวกับพระเจ้าแห่งข้อมูลของบาร์ปัญญาอ่อน ตลอดจนการทดลองตรวจสอบข้อมูล
ภาพประกอบกราฟิกของ KV Cache สำหรับการเพิ่มประสิทธิภาพการอนุมานโมเดลขนาดใหญ่
Mixtral-8x7B MoE การฝึกปรับแต่งโมเดลขนาดใหญ่ เหนือกว่า Llama2-65B
LongQLoRA: การ์ดใบเดียวขยายความยาวบริบทของ LLaMA2-13B ได้อย่างมีประสิทธิภาพ
คำอธิบายโดยละเอียดเกี่ยวกับวิธีการประมาณค่าความยาวแบบจำลองขนาดใหญ่โดยอิงจากการปรับมุมการหมุนของ RoPE
ภาพประกอบของการเข้ารหัสตำแหน่งการหมุนของ RoPE และคุณลักษณะของมัน
โซลูชันก่อนการฝึกอบรมแบบค่อยเป็นค่อยไปของ QLoRA และการฝึกปฏิบัติในการแปล Llama2
หิ่งห้อยหลายรอบบทสนทนาปรับแต่งนักวิชาการ Puyu InternLM-7B ฝึกซ้อม
?หิ่งห้อย LLaMA-30B ที่ได้รับการปรับแต่งอย่างดี อยู่ในอันดับที่ 10 ในประเภทเดียวกันในรายการ Open LLM
ตงยี่ คิวเวน-7บี มีประสิทธิผลแค่ไหน? การฝึกปรับแต่งหิ่งห้อยอย่างละเอียดด้วยผลลัพธ์ที่ยอดเยี่ยม
การวิเคราะห์ซอร์สโค้ดของข้อบกพร่องวิธีการฝึกอบรมการสนทนาหลายรอบ ChatGLM2 และวิธีการปรับปรุง
Firefly ช่วยเพิ่มความสามารถในการสนทนาแบบหลายรอบของ Baichuan-13B
?การจัดอันดับ LLM แบบเปิด firefly-llama2-13b อยู่ในอันดับที่ 3 ในบรรดารุ่น 13B ทั้งหมด ซึ่งต่ำกว่าอันดับที่ 1 เล็กน้อย 0.5 คะแนน
ข้อมูลนับล้านช่วยเสริมความสามารถในการสนทนาแบบหลายรอบของ Baichuan-13B
การ์ดใบเดียวของ Firefly สลักใหม่ Vicuna-13B, เปิดรายการ LLM สูงขึ้นเล็กน้อย 0.2 คะแนน
การปรับแต่งบทช่วยสอนสไตล์พี่เลี้ยงเด็ก Baichuan-13B อย่างละเอียด สอนคุณทีละขั้นตอนถึงวิธีฝึกโมเดลขนาดใหญ่นับหมื่นล้าน
Firefly-Ziya-13B เป็นโอเพ่นซอร์ส ข้อมูล QLoRA+ หลายล้านรายการ และการ์ดใบเดียวสามารถฝึกฝนโมเดลขนาดใหญ่ได้นับหมื่นล้าน
หิ่งห้อย | Baichuan baichuan-7B การวัดจริง, การปรับแต่งข้อมูลคำสั่ง QLoRA + ล้านอย่างละเอียด
Firefly |. QLoRA+ ล้านข้อมูล การปรับแต่งการ์ดหลายใบอย่างมีประสิทธิภาพของรุ่น Bloom-7b1
การตีความบทความ QLoRA และการปรับแต่งการ์ดใบเดียวอย่างมีประสิทธิภาพ Bloom-7b1
หิ่งห้อย: แบบจำลองการสนทนาภาษาจีนขนาดใหญ่
LLMPruner: เครื่องมือปรับแต่งโมเดลภาษาขนาดใหญ่

การประเมินแบบจำลอง

เปิดรีวิวกระดานผู้นำ LLM

ผลการประเมินมาจากลีดเดอร์บอร์ด Open LLM ของ Hugging Face โมเดลของเราได้รับการฝึกฝนโดยใช้สคริปต์ QLoRA และใช้ V100 เพียง 1 ถึง 2 ตัวเท่านั้นในการฝึก

แบบอย่าง	เฉลี่ย	อาร์ค	HellaSwag	มจล	ความจริงQA
หิ่งห้อย-mixtral-8x7b	70.16	68.09	85.76	71.49	55.31
Yi-34B-แชท	69.97	65.44	84.16	74.9	55.37
หิ่งห้อย-llama-30b	64.83	64.25	83.64	58.23	53.2
Falcon-40b-instruct	63.47	61.6	84.31	55.45	52.52
กวานาโก-33b	62.98	62.46	84.48	53.78	51.22
หิ่งห้อย-llama2-13b-v1.2	62.17	60.67	80.46	56.51	51.03
หิ่งห้อย-llama2-13b	62.04	59.13	81.99	55.49	51.57
วิคูนา-13b-v1.5	61.63	56.57	81.24	56.67	51.51
mpt-30b-แชท	61.21	58.7	82.54	51.16	52.42
ตัวช่วยสร้างlm-13b-v1.2	60.79	59.04	82.21	54.64	47.27
วิคูน่า-13b-v1.3	60.01	54.61	80.41	52.88	52.14
llama-2-13b-แชท	59.93	59.04	81.94	54.64	44.12
วิคูนา-13b-v1.1	59.21	52.73	80.14	51.9	52.08
กวานาโก-13b	59.18	57.85	83.84	48.28	46.73

รายการรุ่น

การใช้รหัสการฝึกอบรมของโครงการนี้ และข้อมูลการฝึกอบรมข้างต้น เราฝึกอบรมและเปิดซอร์สน้ำหนักแบบจำลองต่อไปนี้

โมเดลจีน:

แบบอย่าง	โมเดลพื้นฐาน	ความยาวการฝึกอบรม
หิ่งห้อย-baichuan2-13b	baichuan-inc/Baichuan2-13B-ฐาน	1,024
หิ่งห้อย-baichuan-13b	baichuan-inc/Baichuan-13B-ฐาน	1,024
หิ่งห้อย-qwen-7b	คิวเวน/คิวเวน-7B	1,024
หิ่งห้อย-chatglm2-6b	THUDM/chatglm2-6b	1,024
หิ่งห้อย-internlm-7b	ฝึกงาน/ฝึกงาน-7b	1,024
หิ่งห้อย-baichuan-7b	baichuan-inc/baichuan-7B	1,024
หิ่งห้อย-ziya-13b	YeungNLP/Ziya-LLaMA-13B-Pretrain-v1	1,024
หิ่งห้อย-bloom-7b1	วิทยาศาสตร์ขนาดใหญ่/bloom-7b1	1,024
หิ่งห้อย-bloom-2b6-v2	หยางNLP/bloom-2b6-zh	512
หิ่งห้อย-bloom-2b6	หยางNLP/bloom-2b6-zh	512
หิ่งห้อย-bloom-1b4	หยางNLP/bloom-1b4-zh	512

โมเดลภาษาอังกฤษ:

แบบอย่าง	โมเดลพื้นฐาน	ความยาวการฝึกอบรม
หิ่งห้อย-mixtral-8x7b	มิสทราไล/Mixtral-8x7B-v0.1	1,024
หิ่งห้อย-llama-30b	ฮักกิลลามะ/ลามะ-30b	1,024
หิ่งห้อย-llama-13-v1.2	นูสรีเสิร์ช/ลามะ-2-13b-hf	1,024
หิ่งห้อย-llama2-13b	นูสรีเสิร์ช/ลามะ-2-13b-hf	1,024
หิ่งห้อย-llama-13b-v1.2	ฮักกิลลามะ/ลามะ-13b	1,024
หิ่งห้อย-llama-13b	ฮักกิลลามะ/ลามะ-13b	1,024

ข้อมูลการฝึกอบรม

คำสั่งตัดแต่งข้อมูล

ในปัจจุบัน โครงการนี้จัดชุดข้อมูลคำสั่งต่อไปนี้เป็นหลักและจัดระเบียบให้อยู่ในรูปแบบข้อมูลแบบครบวงจร:

ชุดข้อมูล	แนะนำ
หิ่งห้อย-รถไฟ-1.1M	เรารวบรวมข้อมูลเกี่ยวกับงาน NLP ภาษาจีนทั่วไป 23 รายการ และสร้างข้อมูลมากมายที่เกี่ยวข้องกับวัฒนธรรมจีน เช่น โคลงกลอน บทกวี การแปลภาษาจีนคลาสสิก ร้อยแก้ว นวนิยายจินหยง ฯลฯ สำหรับแต่ละงาน จะมีการเขียนเทมเพลตคำสั่งหลายแบบด้วยตนเองเพื่อให้แน่ใจว่าข้อมูลมีคุณภาพสูงและสมบูรณ์ จำนวนข้อมูลคือ 1.15 ล้าน
moss-003-sft-ข้อมูล	ข้อมูลบทสนทนาหลายรอบภาษาจีนและอังกฤษเปิดแหล่งที่มาโดยทีมงาน MOSS ของมหาวิทยาลัย Fudan ซึ่งมีข้อมูลมากกว่า 1 ล้านข้อมูล
อัลตร้าแชท	ข้อมูลการสนทนาแบบหลายเลี้ยวภาษาอังกฤษเปิดแหล่งที่มาโดยมหาวิทยาลัย Tsinghua ซึ่งมีข้อมูลมากกว่า 1.4 ล้านข้อมูล
ตัวช่วยสร้างLM_evol_instruct_V2_143k	ชุดข้อมูลการปรับแต่งคำสั่งภาษาอังกฤษแบบโอเพ่นซอร์สโดยโปรเจ็กต์ WizardLM ใช้เมธอด Evol-Instruct เพื่อพัฒนาคำสั่งและเพิ่มความซับซ้อนของคำสั่ง เพื่อปรับปรุงความสามารถของโมเดลในการทำตามคำแนะนำที่ซับซ้อน มีข้อมูล 143,000 ชิ้น
school_math_0.25M	ข้อมูลคำแนะนำการดำเนินการทางคณิตศาสตร์ที่มาจากทีมงานโครงการ BELLE มีข้อมูล 250,000 ชิ้น
แชร์AI/CodeChat	โดยส่วนใหญ่จะประกอบด้วยตัวอย่างคลังข้อมูลที่เกี่ยวข้องกับการใช้เหตุผลเชิงตรรกะ คำถามและคำตอบเกี่ยวกับโค้ด และการสร้างโค้ด
shareAI/ShareGPT-จีน-อังกฤษ-90k	ชุดข้อมูลคำถามและคำตอบมนุษย์-เครื่องจักรคุณภาพสูงสองภาษาคู่ขนานภาษาจีนและอังกฤษ ครอบคลุมคำถามของผู้ใช้ในสถานการณ์ที่ซับซ้อนจริง
ultrachat_200k	ข้อมูลการปรับแต่งคำสั่งภาษาอังกฤษแบบโอเพ่นซอร์สโดยโครงการ Zephyr ได้รับการทำความสะอาดตามข้อมูล ultrachat
ultrafeedback_binarized	ชุดข้อมูลการตั้งค่าภาษาอังกฤษ สามารถใช้สำหรับการฝึกอบรม DPO ได้

ข้อมูลข้างต้นสามารถเลือก สุ่มตัวอย่าง หรือรวมเข้าด้วยกันได้ตามต้องการ หากคุณกำลังฝึกโมเดลภาษาจีน ขอแนะนำให้ลองใช้ข้อมูลมอส ในภาษาอังกฤษ คุณสามารถลองใช้ข้อมูล ultrachat และ WizardLM

ข้อมูลการฝึกอบรมอยู่ในรูปแบบ jsonl รูปแบบข้อมูลของแต่ละแถวมีดังนี้ ฟิลด์การสนทนาเป็นสิ่งที่จำเป็น และสามารถเพิ่มหรือลบฟิลด์อื่นๆ ได้ตามความต้องการที่แท้จริง คุณสามารถอ้างอิงถึงไฟล์ data/dummy_data.jsonl ในโปรเจ็กต์ได้

{
    "conversation_id" : 44 ,
    "category" : " Brainstorming " ,
    "conversation" :[
        {
            "human" : "怎么能够有效地提升个人能力？ " ,
            "assistant" : "提升个人能力可以通过以下几个方面实现： nn 1. 学习新知识和技能：阅读相关书籍、参加课程和工作坊、观看教育视频等学习方式，可以帮助你掌握新的知识和技能，从而提升个人能力。 nn 2. 持续练习和实践：不断地练习和实践所学的知识和技能，可以帮助你更好地掌握和应用这些技能，提高你的表现和效率。 nn 3. 寻求反馈和改进：寻求他人的反馈和建议可以帮助你发现自己的不足之处，进一步完善和改进自己的能力。 nn 4. 建立良好的工作和生活习惯：建立良好的工作和生活习惯，如合理安排时间、注意健康、保持积极态度等，可以提高你的工作效率和生活品质，从而提升个人能力。 nn 5. 社交和交流：与他人交流和合作，可以帮助你更好地了解他人的观点和经验，从而提升自己的能力和见识。 "
        },
        {
            "human" : "对于初学者来说，如何快速掌握编程技能？ " ,
            "assistant":"以下是几个建议，可以帮助初学者快速掌握编程技能：nn1. 学习基础知识：建议先学习编程语言的基础知识和语法，例如变量、数据类型、控制结构、函数等。可以通过在线课程、编程书籍、视频教程等方式学习。nn2. 实践编程：进行实际的编程练习是非常重要的，可以通过参加编程挑战、编写小项目等方式来进行实践。nn3. 寻求反馈：可以寻求他人的反馈和建议，例如在线编程社区、编程导师等，他们可以帮助你发现问题并及时纠正。nn4. 阅读优秀代码：阅读和分析优秀的代码可以帮助你学习其他程序员的编程思路和技巧，从而提高自己的编程能力。nn5. 不断学习和更新：编程技术和工具在不断更新和发展，因此需要不断学习新的知识和技能，例如学习新的编程语言、框架、工具等，以跟上技术的发展和变化。nn总之，学习编程需要耐心和坚持，并且需要不断地实践和学习。通过以上建议，可以帮助初学者快速掌握编程技能。"
        },
        {
            "human" : "除了参加编程挑战和阅读代码，还有哪些方式可以提升自己的编程能力呢？ " ,
            "assistant":"除了参加编程挑战和阅读代码，还有以下几种方式可以提升自己的编程能力：nn1. 参与开源项目：加入一个开源项目，可以让你了解到实际的软件开发流程和团队合作方式，并且可以与其他开发人员合作，学习和分享编程技巧和经验。nn2. 进行代码重构：对已经编写的代码进行重构，可以帮助你了解更好的编程实践和设计模式，从而提高代码的可读性和可维护性。nn3. 练习算法和数据结构：算法和数据结构是编程中的重要基础，练习算法和数据结构可以帮助你了解不同的数据结构和算法，从而更好地解决实际问题。nn4. 学习软件工程和架构：学习软件工程和架构的知识，可以帮助你了解如何设计和构建可靠、可扩展和可维护的软件系统。nn5. 参加编程社区和论坛：参加编程社区和论坛可以让你与其他开发人员分享和讨论编程经验和技巧，了解最新的技术趋势和解决方案。nn总之，提升编程能力需要不断地学习和实践，并与其他开发人员和编程专家进行交流和合作，以获取更多的经验和知识。"
        },
        {
            "human" : "你有没有推荐的编程挑战网站？ " ,
            "assistant":"当然，以下是一些值得推荐的编程挑战网站：nn1. HackerRank：HackerRank 是一个全球领先的技术招聘平台，提供数百种编程挑战和比赛，包括算法、数据结构、数学、SQL、AI 等多个技术领域。nn2. LeetCode：LeetCode 是一个在线编程学习和实践平台，提供数千道编程题目，主要涵盖算法和数据结构。nn3. Codeforces：Codeforces 是一个全球知名的编程竞赛网站，提供数百个比赛和练习题目，主要涵盖算法和数据结构。nn4. Codewars：Codewars 是一个在线编程学习和实践平台，提供数千道编程题目，主要涵盖算法、数据结构、面向对象编程等多个技术领域。nn5. Project Euler：Project Euler 是一个非营利性的在线编程挑战平台，提供一系列数学和计算机科学问题，需要用编程语言进行解答。nn以上这些编程挑战网站可以帮助你提高编程能力，并且可以与其他编程爱好者进行交流和竞争。"
        },
        {
            "human" : "在学习编程的过程中，如何避免陷入困境和放弃呢？ " ,
            "assistant":"学习编程是一个需要长期坚持和不断学习的过程，以下是一些避免陷入困境和放弃的方法：nn1. 制定合理的学习计划：制定合理的学习计划，包括学习时间、学习内容、目标等，可以帮助你更好地管理时间和精力，避免学习过程中的松懈和分心。nn2. 寻找合适的学习资源：选择适合自己的学习资源，例如在线课程、编程书籍、视频教程等，可以让你更好地了解和掌握编程知识和技能。nn3. 寻求帮助和支持：在学习过程中，遇到问题和困难是很正常的，可以寻求他人的帮助和支持，例如参加编程社区、找到编程导师等。nn4. 进行实践和项目：实践和项目是学习编程的重要组成部分，可以帮助你更好地了解和掌握编程技能，同时也可以提高学习的兴趣和动力。nn5. 坚持并保持兴趣：坚持学习和保持兴趣是学习编程的关键。可以通过参加编程社区、参加编程竞赛、与其他编程爱好者交流等方式来保持兴趣和动力。nn总之，学习编程需要耐心和坚持，并需要不断学习和实践。通过以上方法可以帮助你避免陷入困境和放弃。"
        }
    ],
}

การกระจายข้อมูลของหิ่งห้อย-รถไฟ-1.1M แสดงในรูปด้านล่าง:

ข้อมูลก่อนการฝึกอบรม

สำหรับรูปแบบข้อมูล โปรดดูไฟล์ data/pretrain/dummy_pretrain.jsonl ในโปรเจ็กต์

ข้อมูล อ.ส.ค

สำหรับรูปแบบข้อมูล โปรดดูไฟล์ data/dummy_dpo.jsonl ในโปรเจ็กต์

การฝึกอบรมแบบจำลอง

หากมีการรายงานข้อผิดพลาดระหว่างการฝึก คุณสามารถตรวจสอบคำถามที่พบบ่อยก่อนได้

เราแยกส่วนประกอบต่างๆ ที่ใช้ในการฝึกอบรมเพื่อการขยายและการเพิ่มประสิทธิภาพในภายหลัง สำหรับรายละเอียด โปรดดูการใช้งานในไดเรกทอรีส่วนประกอบ การกำหนดค่าพารามิเตอร์ระหว่างการฝึกจะถูกจัดเก็บไว้ในไดเร็กทอรี train_args เพื่ออำนวยความสะดวกในการจัดการและการเปลี่ยนแปลงแบบรวมศูนย์ คุณสามารถดูการกำหนดค่าการฝึกของรุ่นต่างๆ ได้ในไดเร็กทอรี train_args และแก้ไขหรือเพิ่มได้ตามต้องการ

สภาพแวดล้อมการติดตั้ง

เวอร์ชันของแพ็คเกจ Python หลักหลายเวอร์ชันได้รับการแก้ไขภายใต้ Requirements.txt เพียงรันสคริปต์ต่อไปนี้ สังเกต:

สำหรับโมเดลส่วนใหญ่ เราจะดีบักและฝึกฝนบนคบเพลิง==1.13 สภาพแวดล้อมของหม้อแปลง==4.36 อย่างไรก็ตาม รุ่นใหม่บางรุ่นจำเป็นต้องอัปเดตเวอร์ชันของ Transformers
- Qwen1.5 กำหนดให้หม้อแปลงต้องอัปเดตเป็น 4.37 เท่านั้น
- Gemma จำเป็นต้องอัปเดต Transformers เป็น 4.38.1 เท่านั้น, torch==2.0.0
เมื่อใช้ QLoRA เพื่อฝึก Baichuan2 คุณจะต้องติดตั้ง torch==2.0 และถอนการติดตั้ง xformers และ apex
เมื่อใช้ QLoRA เพื่อฝึก Qwen จะต้องถอนการติดตั้ง flash-attn ไม่เช่นนั้นระบบจะรายงานข้อผิดพลาด

pip install requirements.txt

หากคุณต้องการเปิดใช้งาน Unsloth ขอแนะนำให้ติดตั้งหรืออัปเดตแพ็คเกจ Python ต่อไปนี้:

pip install git+https://github.com/unslothai/unsloth.git
pip install bitsandbytes==0.43.1
pip install peft==0.10.0
pip install torch==2.2.2
pip install xformers==0.0.25.post1

หากคุณต้องการใช้ Unsloth เพื่อฝึก Qwen1.5 ให้ติดตั้งแพ็คเกจต่อไปนี้:

pip install git+https://github.com/yangjianxin1/unsloth.git

ฟังก์ชั่นการสูญเสีย

ในระหว่างการฝึกล่วงหน้า เราใช้การสูญเสียอัตโนมัติแบบคลาสสิก นั่นคือโทเค็นในแต่ละตำแหน่งจะมีส่วนร่วมในการคำนวณการสูญเสีย

เมื่อปรับแต่งคำสั่งอย่างละเอียด เราจะคำนวณเฉพาะการสูญเสียส่วนการฟื้นตัวของผู้ช่วยเหลือเท่านั้น

คำอธิบายพารามิเตอร์

ไดเร็กทอรี train_args จัดเก็บไฟล์การกำหนดค่าสำหรับโมเดลที่แตกต่างกันโดยใช้วิธีการฝึกอบรมที่แตกต่างกัน พารามิเตอร์หลักมีคำอธิบายดังนี้:

output_dir: ไดเร็กทอรีเอาท์พุตการฝึกอบรมซึ่งเก็บจุดตรวจ, โทเค็นเซอร์, เทนเซอร์บอร์ด ฯลฯ
model_name_or_path: ไดเร็กทอรีภายในเครื่องของโมเดลที่ได้รับการฝึกล่วงหน้า หรือชื่อโมเดลบน Huggingface
train_file: เส้นทางชุดข้อมูลการฝึกอบรม sft จะต้องตั้งค่าเป็นไฟล์ และคุณสามารถใช้ data/dummy_data.jsonl สำหรับการดีบักได้ เมื่อฝึกล่วงหน้า จะต้องตั้งค่าเป็นไดเร็กทอรี สคริปต์จะสแกนไฟล์ jsonl ทั้งหมดในไดเร็กทอรีโดยอัตโนมัติ
template_name: ชื่อเทมเพลตที่ใช้เมื่อปรับแต่งคำสั่งอย่างละเอียด สำหรับ template_names เฉพาะ โปรดดูที่ไฟล์ส่วนประกอบ/template.py
num_train_epochs: รอบการฝึกซ้อม หากปริมาณข้อมูลมีขนาดใหญ่เพียงพอ โดยทั่วไปแนะนำให้ฝึกอบรมเพียงยุคเดียวเท่านั้น
tokenize_num_workers: จำนวนเธรดโทเค็นระหว่างการฝึกอบรมล่วงหน้า ค่าเริ่มต้นคือ 10
deepspeed: ไฟล์กำหนดค่าการฝึกอบรมสำหรับ deepspeed เมื่อฝึกด้วยพารามิเตอร์แบบเต็ม Deepspeed จะถูกใช้ สำหรับคำแนะนำในการกำหนดค่าพารามิเตอร์ของ Deepspeed โปรดดูที่เอกสาร Deepspeed
train_mode: โหมดการฝึก, เต็ม, lora หรือ qlora, ค่าเริ่มต้นคือ qlora
Task_type: ประเภทงาน, ฝึกล่วงหน้า, sft หรือ dpo ค่าเริ่มต้นคือ sft
per_device_train_batch_size: ขนาดแบตช์ของกราฟิกการ์ดแต่ละตัว
ไล่ระดับ_accumulation_steps: จำนวนขั้นตอนการสะสมไล่ระดับ ชุดทั่วโลก = num_gpus * per_device_train_batch_size * การไล่ระดับสี_accumulation_steps
การไล่ระดับ_จุดตรวจสอบ: หากหน่วยความจำวิดีโอแน่น คุณสามารถเปิดใช้งานได้ เวลาในการซื้อขายสำหรับพื้นที่ โมเดลจะไม่แคชสถานะการเปิดใช้งานและทำการคำนวณไปข้างหน้าสองครั้งเพื่อประหยัดหน่วยความจำวิดีโอ
Learning_rate: อัตราการเรียนรู้ เมื่อปรับพารามิเตอร์ทั้งหมดอย่างละเอียด แนะนำให้มีขนาดเล็กลง 1e-5 หรือ 5e-6
max_seq_length: ความยาวสูงสุดระหว่างการฝึก ตั้งค่าตามอุปกรณ์ของคุณเอง ยิ่งนานเท่าไร หน่วยความจำวิดีโอก็จะยิ่งมากขึ้นเท่านั้น
max_prompt_length: ความยาวสูงสุดของพร้อมท์เมื่อดำเนินการ dpo
logging_steps: มีกี่ขั้นตอนในการนับการสูญเสียรถไฟ
save_steps: ควรดำเนินการกี่ขั้นตอนเพื่อบันทึกโมเดล
save_total_limit: จำนวนจุดตรวจสูงสุดที่บันทึกไว้ในไดเร็กทอรี output_dir หากเกินจุดตรวจที่เก่าที่สุดจะถูกลบ
lr_scheduler_type: กลยุทธ์การเปลี่ยนแปลงอัตราการเรียนรู้
warmup_steps: จำนวนขั้นตอนการอุ่นเครื่อง อัตราการเรียนรู้ต้องใช้กี่ขั้นตอนจึงจะเพิ่มเป็นค่าที่ระบุ
เพิ่มประสิทธิภาพ: เครื่องมือเพิ่มประสิทธิภาพ หากเป็นการปรับพารามิเตอร์แบบละเอียดทั้งหมด ขอแนะนำให้ใช้ adamw_hf
เมล็ด: เมล็ดสุ่ม ใช้เพื่อสร้างผลการทดลองซ้ำ
fp16: ใช้ความแม่นยำผสม fp16 แนะนำให้เปิด V100
bf16: ใช้ความแม่นยำแบบผสม bf16 แนะนำให้เปิด A100
use_unsloth: ไม่ว่าจะใช้ unsloth หรือไม่ ปัจจุบัน unsloth รองรับเฉพาะบางรุ่นเท่านั้น เช่น Llama3, Mistral, Gemma, TinyLlama เป็นต้น สำหรับรายละเอียด โปรดดูที่ Unsloth

จำเป็นต้องตั้งค่าพารามิเตอร์ต่อไปนี้เมื่อใช้การฝึกอบรม QLoRA:

lora_rank: อันดับของเมทริกซ์ qlora โดยทั่วไปตั้งค่าเป็น 8, 16, 32, 64 ฯลฯ ผู้เขียนตั้งค่าเป็น 64 ในรายงาน qlora ยิ่งค่ามากเท่าใด พารามิเตอร์ที่เกี่ยวข้องในการฝึกก็จะยิ่งมากขึ้นเท่านั้น โดยทั่วไปแล้ว เอฟเฟกต์จะดีกว่า แต่จำเป็นต้องใช้หน่วยความจำวิดีโอมากขึ้น
lora_alpha: พารามิเตอร์การปรับขนาดใน qlora โดยทั่วไปสามารถตั้งค่าเป็น 16 หรือ 32 ได้
lora_dropout: อัตราการออกกลางคันของน้ำหนักลอร่า

เกี่ยวกับการกำหนดค่าพารามิเตอร์ของ deepspeed คุณสามารถแก้ไขได้ตามต้องการ

เริ่มการฝึกอบรม

การฝึกอบรมล่วงหน้าพารามิเตอร์แบบเต็ม แทนที่ {num_gpus} ด้วยจำนวนกราฟิกการ์ด:

deepspeed --num_gpus={num_gpus} train.py --train_args_file train_args/pretrain/full/bloom-1b1-pretrain-full.json

การปรับแต่งคำสั่งพารามิเตอร์ทั้งหมดอย่างละเอียด โดยแทนที่ {num_gpus} ด้วยจำนวนกราฟิกการ์ด:

deepspeed --num_gpus={num_gpus} train.py --train_args_file train_args/sft/full/bloom-1b1-sft-full.json

บัตรเดี่ยว QLoRA การฝึกอบรมล่วงหน้า:

python train.py --train_args_file train_args/pretrain/qlora/yi-6b-pretrain-qlora.json

การปรับแต่งคำสั่ง QLoRA ของการ์ดเดี่ยว:

python train.py --train_args_file train_args/sft/qlora/yi-6b-sft-qlora.json

การฝึกอบรมล่วงหน้า Doka QLoRA:

torchrun --nproc_per_node={num_gpus} train.py --train_args_file train_args/pretrain/qlora/yi-6b-pretrain-qlora.json

การปรับแต่งคำสั่ง Doka QLoRA อย่างละเอียด:

torchrun --nproc_per_node={num_gpus} train.py --train_args_file train_args/sft/qlora/yi-6b-sft-qlora.json

บัตรใบเดียว QLoRA สำหรับการฝึกอบรม DPO:

python train.py --train_args_file train_args/sft/qlora/minicpm-2b-dpo-qlora.json

การใช้งานโมเดล

การรวมน้ำหนัก

หากคุณใช้ LoRA หรือ QLoRA สำหรับการฝึก โปรเจ็กต์นี้จะบันทึกเฉพาะน้ำหนักและไฟล์การกำหนดค่าของอะแดปเตอร์ และคุณจะต้องรวมน้ำหนักของอะแดปเตอร์เข้ากับโมเดลพื้นฐาน สำหรับสคริปต์ โปรดดูที่ script/merge_lora.py

การใช้เหตุผลแบบจำลอง

เราจัดทำสคริปต์เชิงโต้ตอบสำหรับการสนทนาหลายรอบ โปรดดูรายละเอียดในไดเรกทอรีสคริปต์/แชท template_name ที่ตั้งค่าไว้ในสคริปต์จะต้องสอดคล้องกับ template_name ในระหว่างการฝึกโมเดล

 cd script/chat
python chat.py

top_p, อุณหภูมิ, repetition_penalty, do_sample และพารามิเตอร์อื่นๆ ในสคริปต์การสร้างมีผลกระทบอย่างมากต่อเอฟเฟกต์การสร้างของโมเดล และสามารถแก้ไขและแก้ไขได้ตามสถานการณ์การใช้งานของคุณเอง

สคริปต์การอนุมานรองรับการใช้โมเดลพื้นฐานและอะแดปเตอร์สำหรับการอนุมาน ข้อเสียคือทุกครั้งที่สคริปต์เริ่มต้น จะต้องรวมน้ำหนักเข้าด้วยกัน ซึ่งใช้เวลานาน

รองรับการใช้ 4 บิตสำหรับการอนุมาน ความต้องการหน่วยความจำเหลือน้อย และเอฟเฟกต์จะลดลงเล็กน้อย

คำถามที่พบบ่อย

คำถามที่ 1: วิธีแก้ปัญหา OOM?

หาก OOM เกิดขึ้น คุณสามารถลดพารามิเตอร์ เช่น per_device_train_batch_size และ max_seq_length เพื่อบรรเทาได้ คุณยังสามารถตั้งค่า gradient_checkpointing=true ได้ด้วย ซึ่งสามารถลดการใช้หน่วยความจำได้อย่างมาก แต่ความเร็วในการฝึกจะช้าลง

ปัญหาที่ 2: ข้อผิดพลาดของแพ็คเกจการติดตั้ง

แต่ละแพ็คเกจของ Python มีเวอร์ชันต่างๆ ใน Requirements.txt

pip install -r requirements.txt

คำถามที่ 3: จะระบุการใช้การ์ดบางประเภทในการฝึกอบรมได้อย่างไร?

คุณสามารถระบุการใช้การ์ดหมายเลข 0 และหมายเลข 1 ในการฝึกอบรมได้ดังนี้:

CUDA_VISIBLE_DEVICES=0,1 torchrun --nproc_per_node={num_gpus} train_qlora.py --train_args_file train_args/qlora/baichuan-7b-sft-qlora.json

ปัญหาที่ 4: การฝึก Baichuan2 ล้มเหลว

การฝึกอบรม Baichuan2 จำเป็นต้องติดตั้ง torch==2.0 และถอนการติดตั้ง xformers และ apex มิฉะนั้นข้อผิดพลาดจะถูกรายงาน

 RuntimeError: No such operator xformers::efficient_attention_forward_generic - did you forget to build xformers with `python setup.py develop`?

ปัญหาที่ 5: การฝึก Qwen ล้มเหลว

Qwen จำเป็นต้องถอนการติดตั้ง flash-attn สำหรับการฝึกอบรม QLoRA ไม่เช่นนั้นระบบจะรายงานข้อผิดพลาด:

 assert all((i.dtype in [torch.float16, torch.bfloat16] for i in (q, k, v)))

คำถามที่ 6: หลังจากที่ Qwen-Base และ Yi-Base ผ่าน SFT แล้ว <|im_end|> จะไม่สามารถสร้างได้และไม่สามารถหยุดได้ตามปกติ

หลังจากการสอบถาม ปัญหานี้มีอยู่อย่างกว้างขวางในปัญหาในฐานรหัสอย่างเป็นทางการของ Qwen หากคุณฝึก Qwen-Base และ Yi-Base ขอแนะนำให้ตั้งค่า template_name="default" เพื่อหลีกเลี่ยงปัญหานี้ หากคุณดำเนินการ SFT ในรุ่น Qwen-Chat และ Yi-Chat ปัญหานี้จะไม่เกิดขึ้น คุณสามารถตั้งค่า template_name เป็น "qwen" และ "yi" ตามลำดับ

หมายเหตุ: ปัญหานี้ไม่มีอยู่ใน Qwen1.5

ข้อจำกัดและข้อจำกัดการใช้งาน

เนื่องจากปัจจัยต่างๆ เช่น ข้อจำกัดของพารามิเตอร์โมเดลและระดับการทำความสะอาดข้อมูลการฝึกอบรม โมเดลโอเพ่นซอร์สของโปรเจ็กต์นี้อาจมีข้อจำกัดดังต่อไปนี้:

สำหรับความรู้ที่เป็นข้อเท็จจริง เป็นเรื่องง่ายที่จะแสดงคำตอบที่ไม่ถูกต้อง
เนื่องจากไม่ได้รับการปรับแต่งอย่างไม่เป็นอันตราย จึงอาจทำให้เกิดการเลือกปฏิบัติ เป็นอันตราย และผิดจริยธรรม
ยังมีข้อบกพร่องในความสามารถในการเขียนโค้ดและการให้เหตุผล

ตามข้อจำกัดของโมเดลข้างต้น เรากำหนดให้โค้ด ข้อมูล และโมเดลของโปรเจ็กต์นี้จะต้องไม่ถูกนำไปใช้เพื่อวัตถุประสงค์ที่ก่อให้เกิดอันตรายต่อสังคม และต้องปฏิบัติตามใบอนุญาตเชิงพาณิชย์ของโมเดลพื้นฐาน

อ้าง

หากคุณใช้ข้อมูล รหัส หรือแบบจำลองจากโครงการนี้ โปรดอ้างอิงโครงการนี้

 @misc{Firefly,
  author = {Jianxin Yang},
  title = {Firefly(流萤): 中文对话式大语言模型},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/yangjianxin1/Firefly}},
}

ประวัติดารา

ขยาย