zero_nlp Unduh - zero_nlp Unduh kode sumber

zero_nlp

Kode Sumber AI

1.0.0

Unduh

nol ke nlp

Fitur

目标: Membuat kerangka pelatihan out-of-the-box untuk NLP di bidang Tiongkok berdasarkan pytorch dan transformers , dan memberikan serangkaian solusi lengkap untuk pelatihan dan penyempurnaan model (termasuk model besar, vektor pengarah teks, pembuatan teks , multi-modal dan model lainnya);
?数据:
- Kami telah mengumpulkan data pelatihan besar-besaran dari komunitas sumber terbuka untuk membantu pengguna memulai dengan cepat;
- Pada saat yang sama, templat data pelatihan juga dibuka, yang dapat dengan cepat memproses data lapangan vertikal;
- Dikombinasikan dengan metode pemrosesan data yang lebih efisien seperti multi-threading dan pemetaan memori, pemrosesan data百GB menjadi mudah;
流程: Setiap proyek memiliki langkah-langkah pelatihan model yang lengkap, seperti: pembersihan data, pemrosesan data, konstruksi model, pelatihan model, penerapan model, dan ilustrasi model;
模型: saat ini mendukung model besar multi-modal seperti gpt2 , clip , gpt-neox , dolly , llama , chatglm-6b , VisionEncoderDecoderModel , dll.;
多卡串联: Saat ini, ukuran sebagian besar model besar jauh lebih besar daripada memori video dari satu kartu grafis tingkat konsumen. Beberapa kartu grafis perlu dihubungkan secara seri untuk melatih dan menerapkan model besar. Oleh karena itu, beberapa struktur model dimodifikasi untuk mewujudkan fungsi rangkaian multi-kartu训练时dan推理时.
模型工具: Menambahkan tutorial词表裁切dan词表扩充untuk model besar model_modify

Daftar isi

Pelatihan model

nama Cina	nama folder	data	Pembersihan data	modelnya besar	Penerapan model	Ilustrasi
Klasifikasi teks Cina	pengklasifikasi_cina	✅	✅	✅		✅
`gpt2` Cina	cina_gpt2	✅	✅	✅	✅
`clip` Cina	klip_cina	✅	✅	✅		✅
Teks Cina pembuatan gambar	VisionEncoderDecoderModel	✅	✅	✅		✅
Pengantar kode sumber inti vit	model vit					✅
`Thu-ChatGlm-6b` (versi `v1` sudah usang)	simple_thu_chatglm6b	✅	✅	✅	✅
?obrolan- `v2` -6b?	chatglm_v2_6b_lora	✅	✅	✅
Boneka `dolly_v2_3b`	dolly_v2_3b	✅	✅	✅
`llama` Cina (usang)	chinese_llama	✅	✅	✅
`bloom` Cina	cina_mekar	✅	✅	✅
`falcon` Cina (catatan: model elang mirip dengan struktur mekar)	cina_mekar	✅	✅	✅
Kode pra-pelatihan berbahasa Mandarin	model_clm	✅	✅	✅
Model besar Baichuan	model_baichuan	✅	✅	✅	✅
Pemangkasan model✂️	model_modifikasi	✅	✅	✅
paralelisme pipa llama2	saluran pipa	✅	✅	✅
Baichuan 2-7b-obrolan `dpo`	DPO baichuan2-7b-obrolan	✅	✅	✅
Selama pelatihan, proporsi data berubah	contoh_data_kereta	✅	✅	✅
sft basis internlm	magang-sft	✅	✅	✅
kereta qwen2	kereta_qwen2	✅	✅	✅	✅
melatih llava	kereta_llava	✅	✅	✅	✅	✅

Debug pengenalan proyek vllm

Perkenalkan cara men-debug vllm, dan dapatkan pemahaman yang lebih mendalam tentang vllm engineering debug vllm

Diagram aliran data

Saya selalu merasa bahwa aliran data paling jelas diungkapkan dalam bentuk diagram, jadi saya akan mencoba yang terbaik untuk membuat diagram setiap tugas.