zero_nlp Télécharger - zero_nlp Téléchargement du code source

zero_nlp

Code Source AI

1.0.0

Télécharger

zéro à nlp

Caractéristiques

目标: Créer un cadre de formation prêt à l'emploi pour le PNL dans le domaine chinois basé sur pytorch et transformers , et fournir un ensemble complet de solutions pour la formation et le réglage fin des modèles (y compris les grands modèles, les vecteurs de pilotage de texte, la génération de texte , multimodaux et autres modèles) ;
?数据:
- Nous avons compilé des données de formation massives provenant de la communauté open source pour aider les utilisateurs à démarrer rapidement ;
- Dans le même temps, des modèles de données de formation sont également ouverts, qui peuvent traiter rapidement les données de champ vertical ;
- Combiné avec des méthodes de traitement de données plus efficaces telles que le multithreading et le mappage de mémoire, il est facile de traiter même百GB de données ;
流程 : chaque projet comporte des étapes complètes de formation du modèle, telles que : le nettoyage des données, le traitement des données, la construction du modèle, la formation du modèle, le déploiement du modèle et l'illustration du modèle ;
模型 : prend actuellement en charge les grands modèles multimodaux tels que gpt2 , clip , gpt-neox , dolly , llama , chatglm-6b , VisionEncoderDecoderModel , etc. ;
多卡串联: Actuellement, la taille de la plupart des grands modèles est bien supérieure à la mémoire vidéo d'une seule carte graphique grand public. Plusieurs cartes graphiques doivent être connectées en série pour former et déployer de grands modèles. Par conséquent, certaines structures du modèle ont été modifiées pour réaliser la fonction de série multi-cartes训练时et推理时.
模型工具 : Ajout d'un didacticiel词表裁切et词表扩充pour les grands modèles model_modify

Table des matières

Formation sur modèle

nom chinois	nom du dossier	données	Nettoyage des données	grand modèle	Déploiement du modèle	Illustration
Classification des textes chinois	chinois_classifier	✅	✅	✅		✅
`gpt2` chinois	chinois_gpt2	✅	✅	✅	✅
`clip` chinoise	chinois_clip	✅	✅	✅		✅
Génération d'images Texte chinois	VisionEncoderDecoderModel	✅	✅	✅		✅
Introduction au code source principal de Vit	modèle vit					✅
`Thu-ChatGlm-6b` (la version `v1` est obsolète)	simple_thu_chatglm6b	✅	✅	✅	✅
?chatglm- `v2` ?	chatglm_v2_6b_lora	✅	✅	✅
`dolly_v2_3b` chinois	chariot_v2_3b	✅	✅	✅
`llama` chinois (obsolète)	lama_chinois	✅	✅	✅
`bloom` chinoise	fleur_chinoise	✅	✅	✅
`falcon` chinois (remarque : le modèle du faucon est similaire à la structure de la floraison)	fleur_chinoise	✅	✅	✅
Code chinois de pré-formation	modèle_clm	✅	✅	✅
Grand modèle de Baichuan	modèle_baichuan	✅	✅	✅	✅
Découpage du modèle✂️	model_modify	✅	✅	✅
parallélisme du pipeline lama2	pipeline	✅	✅	✅
Baichuan 2-7b-chat `dpo`	DPO baichuan2-7b-chat	✅	✅	✅
Pendant la formation, la proportion de données change	train_data_sample	✅	✅	✅
interne-base sft	internelm-sft	✅	✅	✅
train qwen2	train_qwen2	✅	✅	✅	✅
train de lave	train_llava	✅	✅	✅	✅	✅

vllm de débogage d'introduction au projet

Présenter comment déboguer vllm et avoir une compréhension plus approfondie du vllm Engineering Debug vllm

Diagramme de flux de données

J'ai toujours pensé que le flux de données s'exprime le plus clairement sous forme de diagrammes, je ferai donc de mon mieux pour schématiser chaque tâche.