zero_nlp
1.0.0
目标
: Erstellen Sie ein sofort einsatzbereites Trainingsframework für NLP im chinesischen Bereich basierend auf pytorch
und transformers
und stellen Sie einen vollständigen Satz von Lösungen für das Training und die Feinabstimmung von Modellen bereit (einschließlich großer Modelle, Textsteuerungsvektoren und Textgenerierung). , multimodale und andere Modelle);数据
:百GB
an Daten zu verarbeiten;流程
: Jedes Projekt umfasst vollständige Modellschulungsschritte, z. B. Datenbereinigung, Datenverarbeitung, Modellkonstruktion, Modellschulung, Modellbereitstellung und Modellillustration.模型
: Unterstützt derzeit multimodale große Modelle wie gpt2
, clip
, gpt-neox
, dolly
, llama
, chatglm-6b
, VisionEncoderDecoderModel
usw.;多卡串联
: Derzeit ist die Größe der meisten großen Modelle viel größer als der Videospeicher einer einzelnen Consumer-Grafikkarte. Zum Trainieren und Bereitstellen großer Modelle müssen mehrere Grafikkarten in Reihe geschaltet werden. Daher wurden einige Modellstrukturen modifiziert, um die Funktion mehrerer Kartenserien训练时
und推理时
zu realisieren.模型工具
: Tutorial词表裁切
und词表扩充
für große Modelle model_modify hinzugefügt Chinesischer Name | Ordnername | Daten | Datenbereinigung | großes Modell | Modellbereitstellung | Illustration |
---|---|---|---|---|---|---|
Chinesische Textklassifizierung | chinese_classifier | ✅ | ✅ | ✅ | ✅ | |
Chinesisches gpt2 | chinese_gpt2 | ✅ | ✅ | ✅ | ✅ | |
Chinesischer clip | chinesischer_clip | ✅ | ✅ | ✅ | ✅ | |
Bildgenerierung chinesischer Text | VisionEncoderDecoderModel | ✅ | ✅ | ✅ | ✅ | |
Einführung in den VIT-Core-Quellcode | Vit-Modell | ✅ | ||||
Thu-ChatGlm-6b ( v1 Version ist veraltet) | simple_thu_chatglm6b | ✅ | ✅ | ✅ | ✅ | |
?chatglm- v2 -6b? | chatglm_v2_6b_lora | ✅ | ✅ | ✅ | ||
Chinesischer dolly_v2_3b | dolly_v2_3b | ✅ | ✅ | ✅ | ||
Chinesisches llama (veraltet) | chinese_llama | ✅ | ✅ | ✅ | ||
Chinesische bloom | chinese_bloom | ✅ | ✅ | ✅ | ||
Chinesischer falcon (Hinweis: Das Falkenmodell ähnelt der Blütenstruktur) | chinese_bloom | ✅ | ✅ | ✅ | ||
Chinesischer Vorschulungscode | model_clm | ✅ | ✅ | ✅ | ||
Großes Modell von Baichuan | model_baichuan | ✅ | ✅ | ✅ | ✅ | |
Modellbeschnitt✂️ | model_modify | ✅ | ✅ | ✅ | ||
Lama2-Pipeline-Parallelität | Pipeline | ✅ | ✅ | ✅ | ||
Baichuan 2-7b-chat dpo | Datenschutzbeauftragter baichuan2-7b-chat | ✅ | ✅ | ✅ | ||
Während des Trainings ändert sich der Datenanteil | train_data_sample | ✅ | ✅ | ✅ | ||
internlm-base sft | internlm-sft | ✅ | ✅ | ✅ | ||
Zug qwen2 | train_qwen2 | ✅ | ✅ | ✅ | ✅ | |
Zug Llava | train_llava | ✅ | ✅ | ✅ | ✅ | ✅ |
Ich hatte immer das Gefühl, dass der Datenfluss am deutlichsten in Form von Diagrammen ausgedrückt wird, daher werde ich mein Bestes geben, um jede Aufgabe grafisch darzustellen.
Ich habe die Quellcode-Interpretation von Transformatoren durchgeführt. Sie können zu Station B gehen, um das Video von Liangmulu Programmer anzusehen.