Unduhan Firefly - Unduhan kode sumber Firefly

Firefly: Alat pelatihan model besar terpadu

Selamat bergabung dengan grup pertukaran teknologi model besar Firefly, ikuti akun resmi kami, dan klik tombol bergabung dengan grup.

Selamat mengikuti Zhihu kami untuk komunikasi dan diskusi: Hujan Merah Menurun

Pengenalan proyek

Firefly adalah proyek pelatihan model besar sumber terbuka yang mendukung pra-pelatihan, penyempurnaan instruksi, dan DPO untuk model besar arus utama, termasuk namun tidak terbatas pada Qwen2, Yi-1.5, Llama3, Gemma, Qwen1.5, MiniCPM, MiniCPM3, Lla ma, InternLM, Baichuan, ChatGLM, Yi, Deepseek, Qwen, Orion, Ziya, Xverse, Mistral, Mixtral-8x7B, Zephyr, Vicuna, Bloom, dll. Proyek ini mendukung pelatihan parameter penuh, pelatihan efisien LoRA, QLoRA , dan mendukung pra-pelatihan, SFT, dan DPO . Jika sumber daya pelatihan Anda terbatas, kami sangat menyarankan penggunaan QLoRA untuk menyempurnakan instruksi, karena kami telah memverifikasi efektivitas metode ini di Papan Peringkat LLM Terbuka dan mencapai hasil yang sangat baik.

?Isi utama proyek ini adalah sebagai berikut:

? Mendukung pra-pelatihan, penyempurnaan instruksi, DPO, pelatihan parameter penuh, LoRA, dan pelatihan efisien QLoRA. Dengan melatih model yang berbeda melalui file konfigurasi, pemula dapat dengan cepat memulai model pelatihan.
? Mendukung penggunaan Unsloth untuk mempercepat pelatihan dan menghemat memori video.
Mendukung sebagian besar model besar sumber terbuka utama, seperti Llama3, Gemma, MiniCPM, Llama, InternLM, Baichuan, ChatGLM, Yi, Deepseek, Qwen, Orion, Ziya, Xverse, Mistral, Mixtral-8x7B, Zephyr, Vicuna, Bloom, Selama pelatihan, itu selaras dengan template masing-masing model obrolan resmi.
? Atur dan set data penyempurnaan instruksi sumber terbuka: firefly-train-1.1M, moss-003-sft-data, ultrachat, WizardLM_evol_instruct_V2_143k, school_math_0.25M.
? Rangkaian instruksi Firefly open source untuk menyempurnakan bobot model.
? Efektivitas proses pelatihan QLoRA diverifikasi di Open LLM Leaderboard.

Versi saat ini telah disesuaikan dengan templat model obrolan yang berbeda, dan ada pembaruan besar pada kodenya. Jika Anda lebih menyukai versi sebelumnya, Anda dapat mendownload kode v0.0.1-alpha

Berita

PR struktur model Unsloth x Qwen2 telah digabungkan ke dalam cabang utama Unsloth.
Unsloth yang diperluas untuk mendukung struktur model Qwen2, termasuk model Dense seri Qwen1.5, basis kode: Unsloth. Artikel teknis
Mendukung Unsloth, pelatihan Llama3-8B hanya membutuhkan memori video 7,75 GB, yang dapat mengurangi penggunaan memori video sebesar 42,58% dan waktu pelatihan sebesar 30,72%. Tinjauan perolehan pelatihan.
Mengoptimalkan proses pelatihan, mendukung pelatihan penuh, pelatihan efisien LoRA, QLoRA, mendukung pra-pelatihan, penyempurnaan instruksi, dan DPO. Penyempurnaan instruksi dan templat DPO selaras dengan model obrolan asli dan mendukung sebagian besar model sumber terbuka, termasuk Gemma, MiniCPM, Llama, InternLM, Baichuan, ChatGLM, Yi, Deepseek, Qwen, Orion, Ziya, Xverse, Mistral, Mixtral - 8x7B, Zephyr, Vicuna, Bloom, dll.
Berat model open source firefly-mixtral-8x7b memiliki skor 70,34 di peringkat Open LLM, melampaui model seperti Yi-34B, Llama2-65B-Chat, Qwen-14B, dan Vicuna-33B-v1.3.
LongQLoRA sumber terbuka, [Laporan Teknis]. Ini dapat secara efisien memperluas panjang konteks LLama, memperluas panjang Llama2 menjadi 8k (dan juga hingga 12k) pada satu V100 32GB, dengan hanya 1000 langkah penyesuaian. Kebingungan pada kumpulan data PG19 dan Proof-pile lebih baik daripada LongLoRA , dan pada PG19 Sedikit lebih baik dari MPT-7B-8K.
Proyek open source Firefly-LLaMA2-Chinese dilatih secara efisien pada 4*V100 . Setelah perluasan kosakata bahasa Mandarin, pra-pelatihan tambahan, dan beberapa putaran penyempurnaan instruksi, proyek ini melampaui Linly, Yayi, FlagAlpha, dll. di CMMLU, dan setara dengan Ziya, Performa Alpaca Tiongkok pada dasarnya datar.
Firefly-baichuan2-13b open source menempati peringkat ke-8 dalam daftar CMMLU OpenCompass dengan skor 56,83, sedikit lebih rendah dari model Obrolan resmi Baichuan sebesar 1,57 poin.
Firefly-llama-30b open source menempati peringkat ke-10 di antara model dengan magnitudo yang sama dengan skor 64,83 pada daftar peringkat Open LLM.
Firefly-llama2-13b open source menempati peringkat ketiga di antara model dengan ukuran yang sama dengan 62 poin pada peringkat Open LLM, sedikit 0,5 poin lebih rendah dari model teratas.
Firefly-llama-13b open source adalah replika Vicuna-13B pada peringkat Open LLM Hugging Face, yang sedikit lebih tinggi dari Vicuna-13b-1.1 sebesar 0,2 poin dan sedikit lebih rendah dari llams-2-13b-chat sebesar 0,5 poin.
LLMPruner: Alat kliping model bahasa besar, bobot model Bloom yang terpotong sumber terbuka.

Proyek terkait

Firefly-LLaMA2-China: Model Llama2 China, yang melakukan perluasan kosakata bahasa Mandarin, pra-pelatihan tambahan, dan penyempurnaan instruksi pada Llama2.
LongQLoRA: Proyek perluasan panjang model besar, yang dapat memperpanjang panjang LLaMA-13B hingga 8192 pada satu kartu V100, dan kinerjanya mendekati MPT-8K.
LLMPruner: Kosakata Prune Bloom untuk mengurangi jumlah parameter model.

Blog Teknologi

Blog Teknologi

Unsloth x Qwen2, kecepatannya mencapai 47,32%, menghemat 39,13% memori video, membutuhkan setidaknya memori video 8,43 GB
Menyempurnakan Llama3-8B dengan lebih baik, mempercepat 44,35%, menghemat 42,58% memori video, memerlukan setidaknya 7,75 GB memori video
Eksperimen perbandingan antara Kekecewaan Mental dan Garis Dasar yang Kuat, kesenjangannya terlihat jelas
Beberapa pertanyaan dan dugaan tentang Data yang Dianugerahkan Tuhan dari Bar Keterbelakangan Mental, serta eksperimen verifikasi data
Ilustrasi grafis KV Cache untuk optimasi inferensi model besar
Praktik penyempurnaan model besar Mixtral-8x7B MoE, melampaui Llama2-65B
LongQLoRA: Satu kartu secara efisien memperluas panjang konteks LLaMA2-13B
Penjelasan rinci tentang metode ekstrapolasi panjang model besar berdasarkan penyesuaian sudut rotasi RoPE
Ilustrasi pengkodean posisi rotasi RoPE dan karakteristiknya
Solusi pra-pelatihan tambahan ringan QLoRA, dan praktik pelokalan Llama2
Dialog multi-putaran kunang-kunang menyempurnakan praktik Puyu InternLM-7B
?Firefly menyempurnakan LLaMA-30B, peringkat ke-10 dalam kategori yang sama di daftar Open LLM
Seberapa efektifkah Tongyi Qwen-7B? Latihan menyempurnakan Firefly dengan hasil luar biasa
Analisis kode sumber kekurangan metode pelatihan dialog multi-putaran ChatGLM2 dan metode perbaikan
Firefly meningkatkan kemampuan dialog multi-putaran Baichuan-13B
?Peringkat LLM terbuka, firefly-llama2-13b menempati peringkat ketiga di antara semua model 13B, sedikit lebih rendah dari tempat pertama sebesar 0,5 poin
Jutaan data meningkatkan kemampuan dialog multi-putaran Baichuan-13B
Kartu tunggal Firefly diukir ulang Vicuna-13B, Daftar LLM Terbuka Sedikit lebih tinggi sebesar 0,2 poin
Menyempurnakan tutorial gaya pengasuh Baichuan-13B, mengajari Anda langkah demi langkah cara melatih puluhan miliar model besar
Firefly-Ziya-13B adalah sumber terbuka, QLoRA+ berisi jutaan data, dan satu kartu dapat melatih puluhan miliar model besar
Firefly｜Pengukuran aktual Baichuan baichuan-7B, penyempurnaan data instruksi QLoRA+ juta
Firefly |.QLoRA+ juta data, penyempurnaan efisien multi-kartu model Bloom-7b1
Interpretasi artikel QLoRA & penyempurnaan efisien kartu tunggal mekar-7b1
Firefly: Model bahasa percakapan besar Tiongkok
LLMPruner: Alat penjahit model bahasa besar

Evaluasi model

Buka Tinjauan Papan Peringkat LLM

Hasil evaluasi berasal dari Open LLM Leaderboard Hugging Face. Model kami dilatih menggunakan skrip QLoRA, dan hanya 1 hingga 2 V100 yang digunakan untuk pelatihan.

Model	Rata-rata	BUSUR	HellaSwag	MMLU	JujurQA
kunang-kunang-mixtral-8x7b	70.16	68.09	85,76	71.49	55.31
Yi-34B-Obrolan	69,97	65.44	84.16	74.9	55.37
kunang-kunang-llama-30b	64.83	64.25	83.64	58.23	53.2
falcon-40b-instruksikan	63.47	61.6	84.31	55.45	52.52
guanaco-33b	62,98	62.46	84.48	53.78	51.22
kunang-kunang-llama2-13b-v1.2	62.17	60.67	80.46	56.51	51.03
kunang-kunang-llama2-13b	62.04	59.13	81,99	55.49	51.57
vicuna-13b-v1.5	61.63	56.57	81.24	56.67	51.51
mpt-30b-obrolan	61.21	58.7	82.54	51.16	52.42
wizardlm-13b-v1.2	60,79	59.04	82.21	54.64	47.27
vicuna-13b-v1.3	60.01	54.61	80.41	52.88	52.14
llama-2-13b-obrolan	59.93	59.04	81,94	54.64	44.12
vicuna-13b-v1.1	59.21	52.73	80.14	51.9	52.08
guanaco-13b	59.18	57.85	83,84	48.28	46.73

Daftar model

? Dengan menggunakan kode pelatihan proyek ini, dan data pelatihan di atas, kami melatih dan membuat bobot model berikut menjadi sumber terbuka.

model Cina:

Model	model dasar	panjang pelatihan
kunang-kunang-baichuan2-13b	baichuan-inc/Baichuan2-13B-Base	1024
kunang-kunang-baichuan-13b	baichuan-inc/Baichuan-13B-Base	1024
kunang-kunang-qwen-7b	Qwen/Qwen-7B	1024
kunang-kunang-chatglm2-6b	THUDM/obrolan2-6b	1024
kunang-kunang-internlm-7b	magang/internlm-7b	1024
kunang-kunang-baichuan-7b	baichuan-inc/baichuan-7B	1024
kunang-kunang-ziya-13b	YeungNLP/Ziya-LLaMA-13B-Pretrain-v1	1024
kunang-kunang-mekar-7b1	ilmu besar/mekar-7b1	1024
kunang-kunang-mekar-2b6-v2	YeungNLP/bloom-2b6-zh	512
kunang-kunang-mekar-2b6	YeungNLP/bloom-2b6-zh	512
kunang-kunang-mekar-1b4	YeungNLP/bloom-1b4-zh	512

Model bahasa Inggris:

Model	model dasar	panjang pelatihan
kunang-kunang-mixtral-8x7b	mistralai/Mixtral-8x7B-v0.1	1024
kunang-kunang-llama-30b	pelukan/llama-30b	1024
kunang-kunang-llama-13-v1.2	Penelitian Nous/Llama-2-13b-hf	1024
kunang-kunang-llama2-13b	Penelitian Nous/Llama-2-13b-hf	1024
kunang-kunang-llama-13b-v1.2	pelukan/llama-13b	1024
kunang-kunang-llama-13b	pelukan/llama-13b	1024

data pelatihan

data trim perintah

? Saat ini, proyek ini terutama mengatur kumpulan data instruksi berikut dan mengaturnya ke dalam format data terpadu:

Kumpulan data	memperkenalkan
kereta kunang-kunang-1.1M	Kami mengumpulkan data tentang 23 tugas umum NLP Tiongkok dan menyusun banyak data yang berkaitan dengan budaya Tiongkok, seperti bait, puisi, terjemahan Tiongkok klasik, prosa, novel Jin Yong, dll. Untuk setiap tugas, beberapa templat instruksi ditulis secara manual untuk memastikan kualitas dan kekayaan data yang tinggi. Jumlah data adalah 1,15 juta.
moss-003-sft-data	Data dialog multi-putaran berbahasa Mandarin dan Inggris bersumber terbuka oleh tim MOSS Universitas Fudan, berisi lebih dari 1 juta data
ultrachat	Data percakapan multi-putaran bahasa Inggris bersumber terbuka oleh Universitas Tsinghua, berisi lebih dari 1,4 juta data
WizardLM_evol_instruct_V2_143k	Kumpulan data penyempurnaan instruksi bahasa Inggris yang bersumber terbuka oleh proyek WizardLM menggunakan metode Evol-Instruct untuk mengembangkan instruksi dan meningkatkan kompleksitas instruksi guna meningkatkan kemampuan model dalam mengikuti instruksi yang kompleks. Berisi 143 ribu data.
sekolah_matematika_0,25 juta	Data instruksi operasi matematika yang bersumber terbuka oleh tim proyek BELLE berisi 250.000 data.
bagikanAI/CodeChat	Ini terutama mencakup sampel korpus yang terkait dengan penalaran logis, pertanyaan dan jawaban kode, dan pembuatan kode.
shareAI/ShareGPT-Mandarin-Inggris-90k	Kumpulan data tanya jawab manusia-mesin berkualitas tinggi dalam bahasa Mandarin dan Inggris, yang mencakup pertanyaan pengguna dalam skenario yang sangat kompleks.
ultrachat_200k	Perintah bahasa Inggris menyempurnakan data yang bersumber terbuka oleh proyek Zephyr dibersihkan berdasarkan data ultrachat.
ultrafeedback_binarized	Kumpulan data preferensi bahasa Inggris, dapat digunakan untuk pelatihan DPO

Data di atas dapat dipilih, dijadikan sampel atau digabungkan sesuai kebutuhan. Jika Anda melatih model berbahasa Mandarin, disarankan untuk mencoba menggunakan data lumut. Dalam bahasa Inggris, Anda dapat mencoba data ultrachat dan WizardLM.

Data latih dalam format jsonl, format data tiap barisnya adalah sebagai berikut. Bidang percakapan wajib diisi dan bidang lainnya dapat ditambah atau dihapus sesuai kebutuhan sebenarnya. Anda dapat merujuk ke file data/dummy_data.jsonl di proyek.

{
    "conversation_id" : 44 ,
    "category" : " Brainstorming " ,
    "conversation" :[
        {
            "human" : "怎么能够有效地提升个人能力？ " ,
            "assistant" : "提升个人能力可以通过以下几个方面实现： nn 1. 学习新知识和技能：阅读相关书籍、参加课程和工作坊、观看教育视频等学习方式，可以帮助你掌握新的知识和技能，从而提升个人能力。 nn 2. 持续练习和实践：不断地练习和实践所学的知识和技能，可以帮助你更好地掌握和应用这些技能，提高你的表现和效率。 nn 3. 寻求反馈和改进：寻求他人的反馈和建议可以帮助你发现自己的不足之处，进一步完善和改进自己的能力。 nn 4. 建立良好的工作和生活习惯：建立良好的工作和生活习惯，如合理安排时间、注意健康、保持积极态度等，可以提高你的工作效率和生活品质，从而提升个人能力。 nn 5. 社交和交流：与他人交流和合作，可以帮助你更好地了解他人的观点和经验，从而提升自己的能力和见识。 "
        },
        {
            "human" : "对于初学者来说，如何快速掌握编程技能？ " ,
            "assistant":"以下是几个建议，可以帮助初学者快速掌握编程技能：nn1. 学习基础知识：建议先学习编程语言的基础知识和语法，例如变量、数据类型、控制结构、函数等。可以通过在线课程、编程书籍、视频教程等方式学习。nn2. 实践编程：进行实际的编程练习是非常重要的，可以通过参加编程挑战、编写小项目等方式来进行实践。nn3. 寻求反馈：可以寻求他人的反馈和建议，例如在线编程社区、编程导师等，他们可以帮助你发现问题并及时纠正。nn4. 阅读优秀代码：阅读和分析优秀的代码可以帮助你学习其他程序员的编程思路和技巧，从而提高自己的编程能力。nn5. 不断学习和更新：编程技术和工具在不断更新和发展，因此需要不断学习新的知识和技能，例如学习新的编程语言、框架、工具等，以跟上技术的发展和变化。nn总之，学习编程需要耐心和坚持，并且需要不断地实践和学习。通过以上建议，可以帮助初学者快速掌握编程技能。"
        },
        {
            "human" : "除了参加编程挑战和阅读代码，还有哪些方式可以提升自己的编程能力呢？ " ,
            "assistant":"除了参加编程挑战和阅读代码，还有以下几种方式可以提升自己的编程能力：nn1. 参与开源项目：加入一个开源项目，可以让你了解到实际的软件开发流程和团队合作方式，并且可以与其他开发人员合作，学习和分享编程技巧和经验。nn2. 进行代码重构：对已经编写的代码进行重构，可以帮助你了解更好的编程实践和设计模式，从而提高代码的可读性和可维护性。nn3. 练习算法和数据结构：算法和数据结构是编程中的重要基础，练习算法和数据结构可以帮助你了解不同的数据结构和算法，从而更好地解决实际问题。nn4. 学习软件工程和架构：学习软件工程和架构的知识，可以帮助你了解如何设计和构建可靠、可扩展和可维护的软件系统。nn5. 参加编程社区和论坛：参加编程社区和论坛可以让你与其他开发人员分享和讨论编程经验和技巧，了解最新的技术趋势和解决方案。nn总之，提升编程能力需要不断地学习和实践，并与其他开发人员和编程专家进行交流和合作，以获取更多的经验和知识。"
        },
        {
            "human" : "你有没有推荐的编程挑战网站？ " ,
            "assistant":"当然，以下是一些值得推荐的编程挑战网站：nn1. HackerRank：HackerRank 是一个全球领先的技术招聘平台，提供数百种编程挑战和比赛，包括算法、数据结构、数学、SQL、AI 等多个技术领域。nn2. LeetCode：LeetCode 是一个在线编程学习和实践平台，提供数千道编程题目，主要涵盖算法和数据结构。nn3. Codeforces：Codeforces 是一个全球知名的编程竞赛网站，提供数百个比赛和练习题目，主要涵盖算法和数据结构。nn4. Codewars：Codewars 是一个在线编程学习和实践平台，提供数千道编程题目，主要涵盖算法、数据结构、面向对象编程等多个技术领域。nn5. Project Euler：Project Euler 是一个非营利性的在线编程挑战平台，提供一系列数学和计算机科学问题，需要用编程语言进行解答。nn以上这些编程挑战网站可以帮助你提高编程能力，并且可以与其他编程爱好者进行交流和竞争。"
        },
        {
            "human" : "在学习编程的过程中，如何避免陷入困境和放弃呢？ " ,
            "assistant":"学习编程是一个需要长期坚持和不断学习的过程，以下是一些避免陷入困境和放弃的方法：nn1. 制定合理的学习计划：制定合理的学习计划，包括学习时间、学习内容、目标等，可以帮助你更好地管理时间和精力，避免学习过程中的松懈和分心。nn2. 寻找合适的学习资源：选择适合自己的学习资源，例如在线课程、编程书籍、视频教程等，可以让你更好地了解和掌握编程知识和技能。nn3. 寻求帮助和支持：在学习过程中，遇到问题和困难是很正常的，可以寻求他人的帮助和支持，例如参加编程社区、找到编程导师等。nn4. 进行实践和项目：实践和项目是学习编程的重要组成部分，可以帮助你更好地了解和掌握编程技能，同时也可以提高学习的兴趣和动力。nn5. 坚持并保持兴趣：坚持学习和保持兴趣是学习编程的关键。可以通过参加编程社区、参加编程竞赛、与其他编程爱好者交流等方式来保持兴趣和动力。nn总之，学习编程需要耐心和坚持，并需要不断学习和实践。通过以上方法可以帮助你避免陷入困境和放弃。"
        }
    ],
}

Sebaran data firefly-train-1.1M ditunjukkan pada gambar di bawah ini:

Data pra-pelatihan

Untuk format datanya, silakan lihat file data/pretrain/dummy_pretrain.jsonl di proyek.

data DPO

Untuk format datanya, silakan lihat file data/dummy_dpo.jsonl di proyek.

Pelatihan model

Jika ada kesalahan yang dilaporkan selama pelatihan, Anda dapat memeriksa FAQ terlebih dahulu.

Kami mengekstrak berbagai komponen yang digunakan dalam pelatihan untuk perluasan dan pengoptimalan selanjutnya. Konfigurasi parameter selama pelatihan disimpan di direktori train_args untuk memfasilitasi manajemen dan perubahan terpadu. Anda dapat melihat konfigurasi pelatihan berbagai model di direktori train_args, dan memodifikasi atau menambahkannya sesuai kebutuhan.

Lingkungan instalasi

Versi beberapa paket python utama diperbaiki di bawah persyaratan.txt. Cukup jalankan skrip berikut. Melihat:

Untuk sebagian besar model, kami melakukan debug dan melatih di lingkungan torch==1.13, transformers==4.36. Namun, beberapa model baru perlu memperbarui versi trafo.
- Qwen1.5 mengharuskan trafo diperbarui ke 4.37 saja.
- Gemma perlu memperbarui trafo hanya ke 4.38.1, torch==2.0.0.
Saat menggunakan QLoRA untuk melatih Baichuan2, Anda perlu menginstal torch==2.0 dan menghapus instalan xformers dan apex.
Saat menggunakan QLoRA untuk melatih Qwen, flash-attn perlu dihapus instalasinya, jika tidak, kesalahan akan dilaporkan.

pip install requirements.txt

Jika Anda perlu mengaktifkan Unsloth, disarankan untuk menginstal atau memperbarui paket Python berikut:

pip install git+https://github.com/unslothai/unsloth.git
pip install bitsandbytes==0.43.1
pip install peft==0.10.0
pip install torch==2.2.2
pip install xformers==0.0.25.post1

Jika Anda perlu menggunakan Unsloth untuk melatih Qwen1.5, instal paket berikut:

pip install git+https://github.com/yangjianxin1/unsloth.git

fungsi kerugian

Selama pra-pelatihan, kami menggunakan kerugian autoregresif klasik, yaitu token di setiap posisi akan berpartisipasi dalam perhitungan kerugian.

Saat menyempurnakan instruksi, kami hanya menghitung hilangnya bagian pemulihan asisten.

Deskripsi parameter

Direktori train_args menyimpan file konfigurasi untuk model berbeda menggunakan metode pelatihan berbeda.

output_dir: direktori keluaran pelatihan, yang menyimpan pos pemeriksaan, tokenizer, papan tensor, dll.
model_name_or_path: Direktori lokal model terlatih, atau nama model di huggingface.
train_file: jalur kumpulan data pelatihan. sft, itu perlu ditetapkan sebagai file, dan Anda dapat menggunakan data/dummy_data.jsonl untuk debugging. Saat melakukan pra-pelatihan, itu perlu diatur ke direktori. Script akan secara otomatis memindai semua file jsonl di direktori.
template_name: Nama template yang digunakan saat menyempurnakan instruksi. Untuk nama_template tertentu, lihat file komponen/template.py.
num_train_epochs: putaran latihan. Jika jumlah data cukup besar, biasanya disarankan untuk melatih hanya satu periode saja.
tokenize_num_workers: Jumlah thread tokenize selama pra-pelatihan, defaultnya adalah 10.
deepspeed: file konfigurasi pelatihan untuk deepspeed. Saat berlatih dengan parameter lengkap, kecepatan dalam akan digunakan. Untuk instruksi konfigurasi parameter kecepatan dalam, silakan merujuk ke dokumen kecepatan dalam.
train_mode: mode pelatihan, penuh, lora atau qlora, defaultnya adalah qlora.
task_type: jenis tugas, pretrain, sft atau dpo, defaultnya adalah sft.
per_device_train_batch_size: ukuran batch setiap kartu grafis.
gradien_akumulasi_langkah: Jumlah langkah akumulasi gradien. batch global=num_gpus * per_device_train_batch_size * gradien_akumulasi_langkah.
gradien_checkpointing: Jika memori video terbatas, Anda dapat menyalakannya. Menukar waktu dengan ruang, model tidak menyimpan status aktivasi dalam cache dan melakukan dua penghitungan maju untuk menghemat memori video.
learning_rate: kecepatan pembelajaran. Saat menyempurnakan semua parameter, disarankan untuk lebih kecil, 1e-5 atau 5e-6.
max_seq_length: Panjang maksimum selama pelatihan. Atur sesuai dengan perangkat Anda. Semakin lama, semakin banyak memori video yang digunakan.
max_prompt_length: Panjang maksimum prompt saat melakukan dpo.
logging_steps: berapa langkah untuk menghitung kehilangan kereta.
save_steps: Berapa banyak langkah yang harus diambil untuk menyimpan model.
save_total_limit: Jumlah maksimum checkpoint yang disimpan di direktori output_dir. Jika terlampaui, yang terlama akan dihapus.
lr_scheduler_type: strategi perubahan kecepatan pembelajaran.
pemanasan_langkah: jumlah langkah pemanasan. Berapa banyak langkah yang diperlukan kecepatan pemelajaran untuk meningkat ke nilai yang ditentukan.
optimal: Pengoptimal. Jika ini adalah penyempurnaan parameter penuh, disarankan untuk menggunakan adamw_hf.
seed: benih acak, digunakan untuk mereproduksi hasil eksperimen.
fp16: Gunakan presisi campuran fp16. V100 disarankan untuk dihidupkan.
bf16: Gunakan campuran presisi bf16. A100 disarankan untuk dihidupkan.
use_unsloth: Apakah akan menggunakan unsloth. Saat ini, unsloth hanya mendukung beberapa model, seperti Llama3, Mistral, Gemma, TinyLlama, dll. Untuk detailnya, lihat Unsloth.

Parameter berikut perlu diatur saat menggunakan pelatihan QLoRA:

lora_rank: peringkat matriks qlora. Umumnya diset ke 8, 16, 32, 64, dst, penulis atur ke 64 di makalah qlora. Semakin besar nilainya, semakin besar jumlah parameter yang terlibat dalam pelatihan. Secara umum, efeknya akan lebih baik, tetapi diperlukan lebih banyak memori video.
lora_alpha: parameter penskalaan di qlora. Umumnya dapat diatur ke 16 atau 32.
lora_dropout: tingkat dropout berat lora.

Mengenai konfigurasi parameter deepspeed, Anda dapat memodifikasinya sesuai kebutuhan.

Mulai pelatihan

Pra-pelatihan parameter lengkap, ganti {num_gpus} dengan jumlah kartu grafis:

deepspeed --num_gpus={num_gpus} train.py --train_args_file train_args/pretrain/full/bloom-1b1-pretrain-full.json

Menyempurnakan semua instruksi parameter, mengganti {num_gpus} dengan jumlah kartu grafis:

deepspeed --num_gpus={num_gpus} train.py --train_args_file train_args/sft/full/bloom-1b1-sft-full.json

Pra-pelatihan QLoRA kartu tunggal:

python train.py --train_args_file train_args/pretrain/qlora/yi-6b-pretrain-qlora.json

Penyempurnaan instruksi QLoRA kartu tunggal:

python train.py --train_args_file train_args/sft/qlora/yi-6b-sft-qlora.json

Pra-pelatihan Doka QLoRA:

torchrun --nproc_per_node={num_gpus} train.py --train_args_file train_args/pretrain/qlora/yi-6b-pretrain-qlora.json

Penyempurnaan instruksi Doka QLoRA:

torchrun --nproc_per_node={num_gpus} train.py --train_args_file train_args/sft/qlora/yi-6b-sft-qlora.json

Kartu tunggal QLoRA untuk pelatihan DPO:

python train.py --train_args_file train_args/sft/qlora/minicpm-2b-dpo-qlora.json

Penggunaan model

penggabungan berat

Jika Anda menggunakan LoRA atau QLoRA untuk pelatihan, proyek ini hanya menyimpan bobot dan file konfigurasi adaptor, dan Anda perlu menggabungkan bobot adaptor dengan model dasar. Untuk skripnya, lihat script/merge_lora.py

Penalaran model

Kami menyediakan skrip interaktif untuk beberapa putaran dialog. Silakan lihat direktori skrip/obrolan untuk detailnya. Template_name yang disetel dalam skrip harus konsisten dengan template_name selama pelatihan model.

 cd script/chat
python chat.py

Top_p, temperatur, repeat_penalty, do_sample, dan parameter lain dalam skrip pembuatan memiliki dampak besar pada efek pembuatan model, dan dapat di-debug dan dimodifikasi sesuai dengan skenario penggunaan Anda sendiri.

Skrip inferensi mendukung penggunaan model dasar dan adaptor untuk inferensi. Kerugiannya adalah setiap kali skrip dimulai, bobot harus digabungkan, yang membutuhkan waktu lama.

Mendukung penggunaan 4bit untuk inferensi, kebutuhan memori rendah, dan efeknya akan sedikit berkurang.

Pertanyaan Umum

Pertanyaan 1: Bagaimana cara mengatasi OOM?

Jika OOM terjadi, parameter seperti per_device_train_batch_size dan max_seq_length dapat dikurangi untuk meringankannya. Anda juga dapat mengatur gradien_checkpointing=true, yang dapat sangat mengurangi penggunaan memori, namun kecepatan pelatihan akan lebih lambat.

Masalah 2: Kesalahan paket instalasi

Ada versi setiap paket python di persyaratan.txt

pip install -r requirements.txt

Pertanyaan 3: Bagaimana cara menentukan penggunaan kartu tertentu untuk pelatihan?

Anda dapat menentukan penggunaan kartu No. 0 dan No. 1 untuk pelatihan dengan cara berikut:

CUDA_VISIBLE_DEVICES=0,1 torchrun --nproc_per_node={num_gpus} train_qlora.py --train_args_file train_args/qlora/baichuan-7b-sft-qlora.json

Masalah 4: Gagal melatih Baichuan2

Pelatihan Baichuan2 memerlukan instalasi torch==2.0 dan menghapus instalasi xformers dan apex, jika tidak, kesalahan akan dilaporkan

 RuntimeError: No such operator xformers::efficient_attention_forward_generic - did you forget to build xformers with `python setup.py develop`?

Masalah 5: Pelatihan Qwen gagal

Qwen perlu menghapus instalasi flash-attn untuk pelatihan QLoRA, jika tidak, kesalahan akan dilaporkan:

 assert all((i.dtype in [torch.float16, torch.bfloat16] for i in (q, k, v)))

Pertanyaan 6: Setelah Qwen-Base dan Yi-Base melalui SFT, <|im_end|> tidak dapat dibuat dan tidak dapat dihentikan secara normal.

Setelah diselidiki, masalah ini banyak terjadi pada masalah di basis kode resmi Qwen. Jika Anda melatih Qwen-Base dan Yi-Base, disarankan untuk menyetel template_name="default" untuk menghindari masalah ini. Jika Anda melakukan SFT pada model Qwen-Chat dan Yi-Chat, masalah ini tidak akan terjadi. Anda dapat mengatur template_name ke "qwen" dan "yi" masing-masing.

Catatan: Masalah ini tidak ada di Qwen1.5

Batasan dan Batasan Penggunaan

Karena faktor-faktor seperti keterbatasan parameter model dan tingkat pembersihan data pelatihan, model sumber terbuka proyek ini mungkin memiliki keterbatasan berikut:

Untuk pengetahuan faktual, mudah untuk menghasilkan tanggapan yang salah.
Karena belum diselaraskan dengan baik, hal ini dapat menghasilkan pernyataan yang diskriminatif, berbahaya, dan tidak etis.
Masih terdapat kekurangan pada kemampuan coding dan penalaran.

Berdasarkan batasan model di atas, kami mewajibkan kode, data, dan model proyek ini tidak boleh digunakan untuk tujuan yang merugikan masyarakat, dan harus mematuhi lisensi komersial model dasar.

Mengutip

Jika Anda menggunakan data, kode, atau model dari proyek ini, harap kutip proyek ini.

 @misc{Firefly,
  author = {Jianxin Yang},
  title = {Firefly(流萤): 中文对话式大语言模型},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/yangjianxin1/Firefly}},
}

Sejarah Bintang

Memperluas