Téléchargement minimind - Téléchargement du code source minimind

minimind

Code Source AI

V1

Télécharger

logo

"Le grand chemin mène à la simplicité"

Chinois | Anglais

Ce projet open source vise à repartir de zéro, en aussi peu que 3 heures ! Vous pouvez entraîner MiniMind, un modèle de langage miniature d'une taille de seulement 26,88 M.
MiniMind est extrêmement léger et la plus petite version a à peu près la taille de GPT3 $frac{1}{7000}$ , s'efforçant d'obtenir un raisonnement rapide et même une formation sur le GPU personnel le plus courant.
MiniMind a publié une structure minimaliste de grand modèle, un nettoyage et un prétraitement des ensembles de données, un pré-entraînement supervisé (Pretrain), un réglage fin des instructions supervisées (SFT), un réglage fin adaptatif de bas rang (LoRA) et un apprentissage par renforcement sans récompense, un alignement direct des préférences ( DPO) Le code complet comprend également l'expansion du modèle clairsemé d'experts hybrides partagés (MoE) ; l'expansion du VLM multimodal visuel : MiniMind-V ;
Il ne s'agit pas seulement d'une implémentation d'un modèle open source, mais également d'un tutoriel pour démarrer avec les grands modèles de langage (LLM).
Nous espérons que ce projet pourra fournir aux chercheurs un exemple d'introduction pour aider tout le monde à démarrer rapidement et à générer davantage d'exploration et d'innovation dans le domaine du LLM.
Pour éviter tout malentendu, « jusqu'à 3 heures » signifie que vous avez besoin d'une machine avec ma propre configuration matérielle. Les détails des spécifications spécifiques seront fournis ci-dessous.

rationalisé

Test en ligne ModelScope | Lien vidéo Bilibili

? Introduction

Dans le domaine des grands modèles de langage (LLM), tels que GPT, LLaMA, GLM, etc., bien que leurs effets soient étonnants, les énormes paramètres de modèle de 10 milliards et la mémoire des appareils personnels sont loin d'être suffisants pour la formation, et même l’inférence est difficile. Presque tout le monde ne se contente pas de peaufiner de grands modèles à l'aide de programmes tels que Lora pour apprendre de nouvelles instructions. Cela revient à peu près à apprendre à Newton à jouer avec un smartphone du 21e siècle. Cependant, cela est loin d'apprendre les mystères de l'informatique. la physique elle-même. De plus, les comptes marketing vendant des cours par abonnement payant regorgent de failles et de tutoriels expliquant l'IA avec seulement des connaissances partielles, ce qui rend encore plus difficile la compréhension du contenu de haute qualité du LLM et gêne sérieusement les apprenants.

Par conséquent, l'objectif de ce projet est d'abaisser infiniment le seuil pour démarrer avec LLM et former un modèle de langage extrêmement léger directement à partir de zéro.

Conseil

(Au 17/09/2024) La série MiniMind a terminé la pré-formation de 3 modèles de modèles. Le minimum requis est de seulement 26 M (0,02 B) pour avoir des capacités de conversation fluides !

Modèle (taille)	longueur du tokeniseur	raisonnement occupation	libérer	Note subjective (/100)
minimind-v1-petit (26M)	6400	0,5 Go	2024.08.28	50'
minimind-v1-moe (4×26M)	6400	1,0 Go	2024.09.17	55'
minimind-v1 (108M)	6400	1,0 Go	2024.09.01	60'

L'analyse a été réalisée sur un GPU 2 × RTX 3090 avec Torch 2.1.2, CUDA 12.2 et Flash Attention 2.

Le projet comprend :

L'intégralité du code de processus, des ensembles de données et des sources du code du modèle MiniMind (y compris les modèles Dense et MoE), du pré-entraînement, du réglage fin des instructions SFT, du réglage fin LoRA et de l'optimisation des préférences DPO sont divulgués.
Compatible avec les frameworks populaires tels que transformers , accelerate , trl , peft , etc.
La formation prend en charge la formation sur une seule machine, sur une seule carte, sur une seule machine et sur plusieurs cartes (DDP, DeepSpeed), et utilise wandb pour visualiser le processus de formation. Prend en charge l’arrêt et la poursuite de la formation à n’importe quel endroit.
Code pour les tests de modèles sur l'ensemble de données Ceval.
Implémentez l'interface de chat de base d'Openai-Api pour faciliter l'intégration dans ChatUI tiers (FastGPT, Open-WebUI, etc.).

J'espère que ce projet open source pourra aider les débutants en LLM à démarrer rapidement !

Dernières mises à jour

2024-10-05 (le plus récent ?)

Étend les capacités multimodales de MiniMind - vision
Accédez au projet jumeau minimind-v pour voir les détails !

2024-09-27

09-27 Mise à jour de la méthode de prétraitement de l'ensemble de données de pré-entraînement Afin de garantir l'intégrité du texte, le prétraitement a été abandonné et converti en formation .bin (sacrifiant légèrement la vitesse de formation).
Le fichier actuel après le traitement de pré-entraînement est nommé : pretrain_data.csv.
Suppression d'un code redondant.

2024-09-17

Mettre à jour le modèle minimind-v1-moe
Afin d'éviter toute ambiguïté, mistral_tokenizer n'est plus utilisé comme segmentation de mots et tous les minimind_tokenizer personnalisés sont utilisés comme segmentation de mots.

2024-09-01

Modèle minimind-v1 (108M) mis à jour, utilisant minimind_tokenizer, tours de pré-entraînement 3 + tours SFT 10, entraînement plus complet et performances plus fortes.
Le projet a été déployé sur l'espace de création ModelScope et peut être expérimenté sur ce site :
?Expérience en ligne ModelScope ?

2024-08-27

Le projet est open source pour la première fois

? Environnement

Il s'agit simplement de ma configuration personnelle d'environnement logiciel et matériel, veuillez la modifier à votre propre discrétion :

CPU: Intel(R) Core(TM) i9-10980XE CPU @ 3.00GHz
内存：128 GB
显卡：NVIDIA GeForce RTX 3090(24GB) * 2
环境：python 3.9 + Torch 2.1.2 + DDP单机多卡训练

Ubuntu==20.04
Python==3.9
Pytorche == 2.1.2
CUDA==12.2
exigences.txt

? Test de démarrage rapide

Visage câlin

MiniMind (HuggingFace)

MiniMind (ModèleScope)

 # step 1
git clone https://huggingface.co/jingyaogong/minimind-v1

 # step 2
python 2-eval.py

Ou démarrez Streamlit et démarrez l'interface de chat Web

"Remarque" nécessite python>=3.10, installez pip install streamlit==1.27.2

 # or step 3, use streamlit
streamlit run fast_inference.py

? Train de démarrage rapide

0. Cloner le code du projet

git clone https://github.com/jingyaogong/minimind.git
cd minimind

1. Installation de l'environnement
```
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
```
```
 # 测试torch是否可用cuda
import torch
print(torch.cuda.is_available())
```
S'il n'est pas disponible, veuillez vous rendre sur torch_stable pour télécharger le fichier whl et l'installer vous-même. Lien de référence
2. Si vous avez besoin de vous former
- 2.1 Téléchargez l'adresse de téléchargement de l'ensemble de données et placez-la dans ./dataset .
- 2.2 python data_process.py traite les ensembles de données Par exemple, les données de pré-entraînement sont codées à l'avance par jetons et les ensembles de données sft sont extraits des fichiers qa vers csv.
- 2.3 Ajuster la configuration des paramètres du modèle dans ./model/LMConfig.py
  Ici, il vous suffit d'ajuster les paramètres dim, n_layers et use_moe, qui sont respectivement (512+8) ou (768+16) , correspondant à minimind-v1-small et minimind-v1
- 2.4 python 1-pretrain.py effectue un pré-entraînement et obtient pretrain_*.pth comme poids de sortie du pré-entraînement
- 2.5 python 3-full_sft.py exécute le réglage fin des instructions et obtient full_sft_*.pth comme poids de sortie du réglage fin des instructions
- 2.6 python 4-lora_sft.py effectue un réglage fin de Lora (non requis)
- 2.7 python 5-dpo_train.py effectue l'alignement de l'apprentissage par renforcement des préférences humaines DPO (facultatif)
3. Testez l'effet de raisonnement du modèle
- Assurez-vous que les fichiers de paramètres de pondération *.pth qui doivent être utilisés et terminés la formation se trouvent dans le répertoire ./out/ .
- Vous pouvez également télécharger directement les poids des modèles entraînés et utiliser mon fichier de poids *.pth entraîné.
```
 minimind/out
├── multi_chat
│   ├── full_sft_512.pth
│   ├── full_sft_512_moe.pth
│   └── full_sft_768.pth
├── single_chat
│   ├── full_sft_512.pth
│   ├── full_sft_512_moe.pth
│   └── full_sft_768.pth
├── pretrain_768.pth
├── pretrain_512_moe.pth
├── pretrain_512.pth
```
- python 0-eval_pretrain.py teste l'effet solitaire du modèle pré-entraîné
- python 2-eval.py teste l'effet de dialogue du modèle

Le pré-entraînement ?" Astuce » et le pré-entraînement de réglage fin des paramètres complets et full_sft prennent tous deux en charge l'accélération multi-cartes

En supposant que votre appareil ne dispose que d'une seule carte graphique, utilisez simplement Python natif pour démarrer l'entraînement :

Effectuer une pré-formation ou une formation de mise au point des instructions
```
python 1-pretrain.py
# and
python 3-full_sft.py
```

Supposons que votre appareil dispose de N (N>1) cartes graphiques :

Formation de démarrage de carte N autonome (DDP)

torchrun --nproc_per_node N 1-pretrain.py
# and
torchrun --nproc_per_node N 3-full_sft.py

Formation de démarrage de la carte N autonome (DeepSpeed)

deepspeed --master_port 29500 --num_gpus=N 1-pretrain.py
# and
deepspeed --master_port 29500 --num_gpus=N 3-full_sft.py

Activer wandb pour enregistrer le processus de formation (facultatif)
```
torchrun --nproc_per_node N 1-pretrain.py --use_wandb
# and
python 1-pretrain.py --use_wandb
```
En ajoutant le paramètre --use_wandb , le processus de formation peut être enregistré une fois la formation terminée, le processus de formation peut être consulté sur le site Web de wandb. En modifiant wandb_project et wandb_run_name , vous pouvez spécifier le nom du projet et le nom de l'exécution.

?Sources de données

? Tokenizer : Le Tokenizer en NLP est similaire à un dictionnaire. Il mappe les mots du langage naturel avec des nombres tels que 0, 1 et 36 via le « dictionnaire ». le « dictionnaire ». Il existe deux façons de créer un tokenizer LLM : l'une consiste à construire vous-même une liste de mots pour entraîner un tokenizer, le code peut être trouvé train_tokenizer.py ; l'autre consiste à sélectionner un tokenizer entraîné par un modèle open source. Bien sûr, vous pouvez directement choisir le dictionnaire Xinhua ou Oxford Dictionary pour « dictionnaire ». L'avantage est que le taux de compression de conversion des jetons est très bon, mais l'inconvénient est que la liste de vocabulaire est trop longue, avec des centaines de milliers d'expressions de vocabulaire. Vous pouvez également utiliser votre propre segmenteur de mots formé. L'avantage est que la liste de mots peut être contrôlée à volonté. L'inconvénient est que le taux de compression n'est pas assez idéal et qu'il n'est pas facile de couvrir tous les mots rares. Bien entendu, le choix du « dictionnaire » est important. Le résultat de LLM est essentiellement un problème de multi-classification de N mots de SoftMax vers le dictionnaire, puis décodé en langage naturel via le « dictionnaire ». Étant donné que le LLM est très petit, afin d'éviter que le modèle ne soit trop lourd (le rapport entre les paramètres de la couche d'incorporation de mots et l'ensemble du LLM est trop élevé), la longueur du vocabulaire doit être choisie pour être relativement petite. De puissants modèles open source tels que 01 Wanwu, Qianwen, chatglm, mistral, Llama3, etc. ont les longueurs de vocabulaire tokenizer suivantes :

Modèle de tokeniseur	Taille du vocabulaire	source
yi tokeniseur	64 000	01 Tout (Chine)
générateur de jetons qwen2	151 643	Alibaba Cloud (Chine)
tokeniseur glm	151 329	Wisdom AI (Chine)
tokeniseur mistral	32 000	Mistral IA (France)
tokeniseur lama3	128 000	Méta (États-Unis)
tokeniseur minimind	6 400	Personnaliser

Mise à jour 2024-09-17 : Afin d'éviter toute ambiguïté et de contrôler le volume dans les versions précédentes, tous les modèles minimind utilisent la segmentation de mots minimind_tokenizer et toutes les versions de mistral_tokenizer sont abandonnées.

Bien que la longueur de minimind_tokenizer soit très petite, l'efficacité d'encodage et de décodage est plus faible que celle des tokenizers chinois tels que qwen2 et glm. Cependant, le modèle minimind a choisi son propre minimind_tokenizer formé comme segmenteur de mots pour garder les paramètres globaux légers et éviter un déséquilibre dans la proportion de la couche de codage et de la couche de calcul, qui est très lourde, car la taille du vocabulaire du minimind est seulement 6400. De plus, minimind n’a pas manqué de décoder des mots rares lors de tests réels, et les résultats sont bons. Étant donné que la liste de mots personnalisée est compressée à 6 400 mots, la taille totale des paramètres de LLM est aussi faible que 26 Mo.

?[Données de pré-entraînement] : l'ensemble de données de texte universel Seq-Monkey/le disque réseau Seq-Monkey Baidu est compilé et nettoyé à partir d'une variété de données de source publique (telles que des pages Web, des encyclopédies, des blogs, des codes open source, des livres, etc.) . Il est organisé dans un format JSONL unifié et a fait l'objet d'un filtrage et d'une déduplication stricts pour garantir l'exhaustivité, l'échelle, la crédibilité et la haute qualité des données. Le montant total est d'environ 10 milliards de jetons, ce qui convient à la pré-formation de grands modèles de langue chinoise.
Option 2 : La partie accessible au public de l'ensemble de données SkyPile-150B contient environ 233 millions de pages Web uniques, chacune contenant en moyenne plus de 1 000 caractères chinois. L'ensemble de données comprend environ 150 milliards de jetons et 620 Go de données en texte brut. Si vous êtes pressé , vous pouvez essayer de sélectionner uniquement une partie du téléchargement jsonl de SkyPile-150B (et générer un fichier *.csv pour le tokenizer de texte dans ./data_process.py) pour exécuter rapidement le processus de pré-formation. .

[Données SFT] : L'ensemble de données SFT sur grands modèles de Jianshu est une ressource complète, unifiée et sécurisée de formation et de recherche sur de grands modèles. Un grand nombre d'ensembles de données open source ont été collectés et triés à partir de sources de données publiques sur Internet, et le format a été unifié et les données ont été nettoyées. L'ensemble de données chinois contient 10 millions de données et l'ensemble de données anglais contient 2 millions de données. . Le montant total est d'environ 3 milliards de jetons, ce qui convient au SFT du grand modèle de langue chinoise. L'intégration de l'ensemble de données provient de toutes les données suivantes (à titre de référence uniquement, il n'est donc pas nécessaire de les télécharger séparément, téléchargez simplement une [données SFT] complète) :
- BelleGroup/train_3.5M_CN
- LinkSoul/instruction_merge_set
- piquant/ultrachat
- BAAI/COIG-PC-core
- shibing624/sharegpt_gpt4
- shareAI/ShareGPT-chinois-anglais-90k
- Recherche sur le tigre
- BelleGroup/school_math_0.25M
- YeungNLP/moss-003-sft-data

[Données DPO] : Il existe environ 80 000 éléments de données DPO après la fusion. Les données de préférence annotées manuellement proviennent du modèle de type mobile, qui peut être utilisé pour entraîner le modèle de récompense et optimiser la qualité de réponse du modèle afin de le rendre plus cohérent avec préférences humaines.

[Plus d'ensembles de données] Actuellement, HqWu-HITCS/Awesome-Chinese-LLM collecte et passe au peigne fin des modèles open source, des applications, des ensembles de données, des didacticiels et d'autres documents liés au LLM chinois, et continue de mettre à jour les derniers progrès à cet égard. Complet et professionnel, Respect!

Adresse de téléchargement de l'ensemble de données

Télécharger dans ./dataset/

Ensemble de données d'entraînement MiniMind	Adresse de téléchargement
[ensemble de formation tokenizer]	HuggingFace / Baidu Netdisk
【Données de pré-entraînement】	Officiel Seq-Monkey/Disque réseau Baidu/HuggingFace
【Données SFT】	Ensemble de données SFT grand modèle de Jiangshu
【Données DPO】	Visage câlin

?Modèle

MiniMind-Dense (identique à Llama3.1) utilise la structure Decoder-Only de Transformer. La différence avec GPT-3 est :

La méthode de pré-normalisation de GPT-3 est adoptée, c'est-à-dire que la normalisation est effectuée sur l'entrée de chaque sous-couche du transformateur, plutôt que sur la sortie. Plus précisément, la fonction de normalisation RMSNorm est utilisée.
La fonction d'activation SwiGLU est utilisée à la place de ReLU pour améliorer les performances.
Comme GPT-Neo, l'intégration de position absolue est supprimée et l'intégration de position pivotée (RoPE) est utilisée à la place, ce qui permet de mieux gérer l'inférence au-delà de la durée d'entraînement.

Modèle MiniMind-MoE, sa structure est basée sur Llama3 et le module expert hybride MixFFN dans Deepseek-V2.

En termes de réseau feedforward (FFN), DeepSeek-V2 adopte une segmentation d'experts plus fine et une technologie d'isolation d'experts partagée pour améliorer l'effet des experts.

La structure globale de MiniMind est la même, à l'exception de quelques ajustements mineurs dans le code de calcul RoPE, la fonction d'inférence et la couche FFN. Sa structure est la suivante (version redessinée) :

Pour modifier la configuration du modèle, consultez ./model/LMConfig.py. Les versions de modèles actuellement entraînées par minimind sont présentées dans le tableau ci-dessous :

Nom du modèle	paramètres	len_vocab	n_couches	d_modèle	kv_heads	q_heads	partager+itinéraire	TopK
minimind-v1-petit	26M	6400	8	512	8	16	-	-
minimind-v1-moe	4×26M	6400	8	512	8	16	2+4	2
minimind-v1	108M	6400	16	768	8	16	-	-

?Expérience

Nom du modèle	paramètres	len_vocab	taille_lot	prétrain_time	sft_single_time	sft_multi_time
minimind-v1-petit	26M	6400	64	≈2 heures (1 époque)	≈2 heures (1 époque)	≈0,5 heure (1 époque)
minimind-v1-moe	4×26M	6400	40	≈6 heures (1 époque)	≈5 heures (1 époque)	≈1 heure (1 époque)
minimind-v1	108M	6400	16	≈6 heures (1 époque)	≈4 heures (1 époque)	≈1 heure (1 époque)

Pré-formation (Text-to-Text) :
- La première chose que LLM doit apprendre n'est pas de communiquer directement avec les gens, mais de remplir l'estomac d'encre de connaissances, en théorie, plus vous buvez, mieux c'est, et vous accumulerez beaucoup de connaissances sur le sujet. le monde.
- La pré-formation consiste à permettre au modèle d'apprendre d'abord de nombreuses connaissances de base, telles que Wikipédia, les actualités, le bon sens, les livres, etc.
- Il compresse sans supervision les connaissances provenant de grandes quantités de données textuelles dans les poids de son propre modèle, dans le but d'apprendre le solitaire de mots. Par exemple, si nous saisissons les quatre mots « Qin Shihuang est », il peut prédire que la phrase suivante sera très probablement « le premier empereur de Chine » après beaucoup d'apprentissage.
Le taux d'apprentissage du pré-entraînement est fixé à un taux d'apprentissage dynamique de 1e-4 à 1e-5, et le nombre d'époques de pré-entraînement est fixé à 5.
```
torchrun --nproc_per_node 2 1-pretrain.py
```
Dialogue unique Mise au point :
- Après la pré-formation, le LLM semi-fini maîtrise presque toutes les connaissances linguistiques et les connaissances encyclopédiques. À ce moment-là, il ne discutera pas avec les gens, au contraire, il entrera simplement des mots sans cervelle et générera le mot suivant.
- À ce stade, il est nécessaire de restreindre le LLM semi-fini et de l'affiner dans le modèle de discussion. Par exemple, lorsqu'il rencontre un modèle tel que "<Chat Start> Qin Shihuang est <Chat End>", il le fera. ne sera plus un pick-up stupide, mais se rendra compte qu'il s'agit d'un paragraphe complet. La conversation se termine.
- Nous appelons ce processus le réglage fin des instructions, tout comme l'adaptation de M. Newton, qui a beaucoup appris, aux habitudes de chat du 21e siècle, l'apprentissage de la règle selon laquelle les messages de l'autre partie sont sur le côté gauche de l'écran, et les messages de votre part sont sur le côté droit.
- Pendant l'entraînement, la longueur des instructions et des réponses de MiniMind est tronquée à 512 pour économiser de l'espace mémoire vidéo. Tout comme lorsque nous étudions, nous commencerons par des articles courts. Après avoir appris à lire des essais de 200 mots, nous n'avons plus besoin d'étudier séparément des articles de 800 mots.
En ajustant la différence linéaire RoPE pendant l'inférence, il est pratique d'extrapoler la longueur à 1 024 ou 2 048 et plus. Le taux d'apprentissage est défini sur un taux d'apprentissage dynamique de 1e-5 à 1e-6, et le nombre d'époques de réglage fin est de 6.
```
 # 3-full_sft.py中设置数据集为sft_data_single.csv
torchrun --nproc_per_node 2 3-full_sft.py
```
Mise au point multi-dialogue :
- Sur la base de 2, LLM a appris le modèle de chat d'une question->une réponse. À ce stade, il s'agit simplement d'affiner davantage un modèle de discussion plus long avec des questions et réponses historiques.
- Nous devons uniquement utiliser le champ history_chat de l'ensemble de données, qui est la conversation historique, et le champ history_chat_response, qui est la réponse à la conversation historique.
- Créez un nouveau modèle de discussion de [Question->Réponse, Question->Réponse, Question->], puis utilisez cet ensemble de données pour un réglage précis.
- Le modèle appris peut non seulement répondre aux questions actuelles, mais également mener des conversations cohérentes basées sur des conversations historiques.
- Cette étape n'est pas nécessaire , car le petit modèle a une faible capacité à créer des dialogues, et l'alignement forcé de plusieurs séries de modèles de questions et de réponses perdra un certain degré d'effet SFT à un seul tour.
Le taux d'apprentissage est défini sur un taux d'apprentissage dynamique de 1e-5 à 1e-6, et le nombre d'époques de réglage fin est de 5.
```
 # 3-full_sft.py中设置数据集为sft_data.csv
torchrun --nproc_per_node 2 3-full_sft.py
```
Apprentissage par renforcement du feedback humain (RLHF) - Optimisation des préférences directes (DPO) :
- Dans la formation précédente, GPT possédait déjà des capacités conversationnelles de base, mais cette capacité est entièrement basée sur le solitaire de mots et manque d'incitations pour les exemples et contre-exemples positifs.
- GPT ne sait pas encore quelles réponses sont bonnes et lesquelles sont mauvaises. Nous espérons qu'il pourra être plus conforme aux préférences des gens et donner des réponses plus satisfaisantes.
- Ce processus revient à laisser GPT participer à une formation professionnelle, apprendre à mieux servir les clients grâce à d'excellents employés comme exemples et à des employés négatifs comme contre-exemples.
- Dans la série RLHF, il est différent du PPO (Proximal Policy Optimization), un algorithme RL qui nécessite un modèle de récompense et un modèle de valeur ;
- DPO remplace le modèle de récompense en ligne par des données hors ligne en dérivant une solution explicite au modèle de récompense PPO, et la sortie de référence peut être enregistrée à l'avance.
- Les performances DPO sont presque inchangées et seuls deux modèles, acteur et arbitre, sont exécutés, ce qui permet d'économiser considérablement la mémoire graphique et d'augmenter la stabilité de l'entraînement.
- De même, l’étape RL du LLM n’est pas nécessaire et présente des avantages et des inconvénients.
Ensemble de données triplet de type mobile (q, choisir, rejeter), taux d'apprentissage le-5, demi-précision fp16, un total de 1 époque et prend 1 heure.
```
python 5-dpo_train.py
```

? Concernant la configuration des paramètres de LLM, il existe un article très intéressant MobileLLM qui fait des recherches et des expériences détaillées. La loi de mise à l'échelle a ses propres règles uniques dans les petits modèles. Les paramètres qui entraînent la mise à l'échelle des paramètres du Transformer dépendent presque exclusivement de d_model et n_layers .

d_model ↑+ n_layers ↓->Humpty Dumpty
d_model ↓+ n_layers ↑->mince et grand

L'article proposant la loi de mise à l'échelle en 2020 estime que la quantité de données d'entraînement, la quantité de paramètres et le nombre d'itérations d'entraînement sont les facteurs clés qui déterminent les performances, et que l'impact de l'architecture du modèle peut presque être ignoré. Il semble toutefois que cette loi ne s’applique pas pleinement aux petits modèles. MobileLLM propose que la profondeur de l'architecture est plus importante que la largeur. Le modèle « élancé » « profond et étroit » peut apprendre des concepts plus abstraits que le modèle « large et peu profond ». Par exemple, lorsque les paramètres du modèle sont fixés à 125M ou 350M, le modèle « étroit » avec 30 à 42 couches a des performances nettement meilleures que le modèle « court et gros » avec environ 12 couches, dans 8 tests de référence tels que le raisonnement de bon sens. , questions et réponses et compréhension écrite. Il existe des tendances similaires. Il s’agit en fait d’une découverte très intéressante, car dans le passé, lors de la conception d’architectures pour des petits modèles d’environ 100 Mo, presque personne n’avait essayé d’empiler plus de 12 couches. Ceci est cohérent avec l'effet observé expérimentalement de MiniMind ajustant les paramètres du modèle entre d_model et n_layers pendant le processus de formation. Cependant, le "étroit" de "profond et étroit" a également une limite de dimension. Lorsque d_model<512, l'inconvénient de l'effondrement de la dimensionnalité de l'intégration de mots est très évident. Les couches ajoutées ne peuvent pas compenser l'inconvénient d'un d_head insuffisant causé par l'intégration de mots. dans q_head fixe. Lorsque d_model>1536, l'augmentation des couches semble avoir une priorité plus élevée que d_model, et peut apporter des paramètres plus "rentables" -> gain d'effet. Par conséquent, MiniMind définit d_model=512 et n_layers=8 du petit modèle pour obtenir l'équilibre « très petit volume <-> meilleur effet ». Définissez d_model=768, n_layers=16 pour obtenir de plus grands avantages de l'effet, qui est plus conforme à la courbe changeante de la loi d'échelle des petits modèles.

Pour référence, les réglages des paramètres de GPT3 sont indiqués dans le tableau ci-dessous :

Modeler des poids après l'entraînement

?BaiduNetdisk

Nom du modèle	paramètres	Configuration	prétrain_model	modèle_sft_single	multi_sft_model	rl_model
minimind-v1-petit	26M	d_modèle=512 n_couches=8	`pretrain_512.pth`	`single_chat/full_sft_512.pth`	`multi_chat/full_sft_512.pth`	`rl_512.pth`
minimind-v1-moe	4×26M	d_modèle=512 n_couches=8	`pretrain_512_moe.pth`	`single_chat/full_sft_512_moe.pth`	`multi_chat/full_sft_512_moe.pth`	-
minimind-v1	108M	d_modèle=768 n_couches=16	`pretrain_768.pth`	`single_chat/full_sft_768.pth`	`multi_chat/full_sft_768.pth`	`rl_768.pth`

?Évaluer

①RLHF

Conseil

Testez la comparaison du modèle minimind basée sur le « dialogue à un seul tour full_sft » et « l'alignement de l'apprentissage par renforcement DPO ».

Fichier modèle Baidu Netdisk, où rl_<dim>.pth est le poids du modèle minimind après « alignement d'apprentissage par renforcement DPO ».

 [Q]: 你叫什么名字？
[ft_768]: 我是一款人工智能语言模型，可以回答您的问题和提供帮助。您有什么需要我帮忙的吗？
[rl_768]: 我是一款基于人工智能技术的自然语言处理系统，主要用于处理和生成人类语言的任务。我可以帮助用户进行文本处理、语音识别、文本生成等任务，同时也可以帮助用户进行智能聊天、翻译、翻译等多种应用。如果您需要更多关于该项目的信息，请告诉我。
[ft_512]: 我很高兴能够帮助你。你有什么其他问题需要我帮忙解答吗？
[rl_512]: 我是一款基于自然语言处理技术的聊天机器人，能够理解和回复用户的问题和指令，并进行相应的回复和回复。我被训练为能够与人类进行交互和回答各种问题和任务。请问有什么需要吗？

[Q]: 你是谁？
[ft_768]: 我是一个人工智能语言模型，没有个人身份和身份。我只是根据输入的指令和文本信息生成响应。
[rl_768]: 我是一个计算机程序，没有个人身份或身份。我被设计来回答各种问题和提供帮助，包括回答问题、提供建议、进行实验、提供信息等等。我被广泛应用于各种领域，例如自然语言处理、计算机视觉、人工智能等等。如果您需要更多的帮助或信息，请随时与我联系。我会尽我所能来帮助您的工作和生活。
[ft_512]: 我是一个大型语言模型，可以回答各种各样的问题，包括科学、历史、文化和技术方面的问题。您有什么需要我回答的问题吗？
[rl_512]: 我是一个计算机程序，没有具体的身世和人物。如果您可以告诉我您想知道的具体信息，我会尽力回答您的问题。

[Q]: 中国有哪些比较好的大学？
[ft_768]: 中国有很多著名的大学，其中包括北京大学、上海交通大学、复兴中医药学院、浙江大学等。这些大学在不同的领域都有着自己的标志性建筑和研究方向，值得一提的是，它们在中国的顶尖教育资源中享有很高的声誉。
[rl_768]: 中国的大学有很多，具体情况还要根据你的需求来决定。如果你需要更详细的信息，建议可以去咨询一下你所在城市的大学排名和政策法规，从而选择一个合适的大学。同时，你可以在网上查阅相关信息，或者去咨询一些大学相关机构，如中国人民大学、中国人民大学等，以获得更为详细和专业的指导和建议。
[ft_512]: 中国有很多优秀的大学，比如麻省理工学院、北京大学、上海大学等等。这些大学在中国教育事业的发展和成就都非常突出。
[rl_512]: 中国教育局、中国大学、中国大陆大学和中国大陆大学均有优秀的教育体裁，但各地教育水平和专业要求都可能存在差异。中国教育局的学历要求、教学方法、师资力量等因素都各具特点，而大学的学历要求也各有千秋。中国大陆大学生的学历要求也各有不同，需要根据自己的实际情况进行选择。如果您对中国大陆大学生的专业要求有更具体需求，建议您可以通过互联网、国内外的各类机构和机构进行比较和交流。同时，您也可以向身边的人或朋友、老师、家长等人士寻求帮助和建议。希望以上回答对您有帮助。

[Q]: 你知道光速是多少吗？
[ft_768]: 光速是一个物理常数，表示光在真空中传播的速度，大约是每秒299792458米。光速是物理学中最基本的物理常数之一，也是相对论的重要基础之一。
[rl_768]: 当然知道，光速是光在真空中传播的速度，通常用c来表示。它是宇宙物理学中非常重要的理论之一。在物理学中，光速被认为是宇宙中最重要的速度之一。它代表着光在真空中传播的速度，这也是许多重要公式和公式的基础。
[ft_512]: 光速是光在真空中传播的速度，约为每秒299,792,458米。它是几乎所有的物理学概念，也是宇宙中最神秘和最重要的物理概念之一。
[rl_512]: 光速是光在真空中传播的速度，是自然界中不可逆转的速度。光源是由光的原子、分子、固体和光的组成，其速度约为每秒平方。光的速度是每秒约1个英亞或光年，这个数字是根据相对论、量子力学和引力理论来计算的。光速是相对的概念之一，它代表着我们对自然界中任何事件的理解和解释。

Résumé des effets

Les données RLHF utilisent environ 100 000 éléments ; le modèle full_sft est plus performant en termes de simplicité et de précision des informations ; le modèle rl fournit plus d'informations de base dans les réponses, mais la précision des informations doit être améliorée.
En général, le modèle après RLHF a tendance à apprendre : dire des bêtises plus polies mais inutiles pour plaire à la « conversation » elle-même, avec une légère perte de précision des informations.
Il n’y a rien de gratuit dans le monde. Nous devons encore continuer à améliorer la qualité de l’ensemble de données RLHF, et nous devons également accepter la perte inévitable des capacités des modèles (à des degrés divers).
La différence entre le DPO et le PPO en ligne est que le rejet et le choix sont préparés hors ligne, et il doit y avoir une grande différence de distribution entre les résultats du modèle minimind lui-même.
Ceci est similaire à l'algorithme DPO qui permet au modèle de regarder la « vidéo » du style de jeu du champion du monde de tennis de table pour un apprentissage par renforcement, au lieu de demander au modèle de récompense d'être un « entraîneur » pour corriger son propre style de jeu par apprentissage par renforcement comme OPP.

② Instruire le chapitre de réglage fin

Conseil

Le test suivant a été effectué le 17/09/2024. Les nouveaux modèles sortis après cette date ne seront pas inclus dans le test, sauf en cas de besoins particuliers. Testez le modèle mini-esprit basé sur un dialogue à un seul tour full_sft (sans réglage fin à plusieurs tours ni réglage fin de l'apprentissage par renforcement).

[A] minimind-v1-petit (0,02B)
[B] minimind-v1-moe (0,1B)
[C] mini-esprit-v1 (0.1B)
[D] bébé-llama2-chinois (0,2B)
[E] chatlm-mini-chinois (0,2B)

 [Q]: 你知道长江吗？
[A]: 是的，长江是中国最长的河流，全长超过3300千米。
[B]: 长江是中国最长的河流，总长度约为6300公里。它发源于青藏高原的青海湖，流经青海、四川、甘肃、宁夏、内蒙古、陕西和山西。长江流域是中国最大的农业区之一，也是中国的文化和经济中心。
[C]: 是的，长江是中国最长的河流之一，也是世界第三大河流。长江发源于青藏高原，流经11个省份，最终注入东海。长江流域是中国最大的河流流域之一，拥有着丰富的自然资源和文化遗产，如长江大桥、长江海洋博物馆、长江古城等。
[D]: 同时也知道，中国是世界上最长的城市之一，拥有超过3400万人口。
[E]: 是的，长江是中国最长的河流，也是世界上最长的河流之一。它发源于青藏高原，流经九个省区，最终注入东海。长江流域的气候温和，四季分明，是中国重要的农业和工业基地。长江流域的水产资源丰富，是中国的重要渔业资源之一。


[Q]: 第一颗人造卫星是哪个国家发射的？
[A]: 第一颗人造卫星是斯普特尼克1号。
[B]: 第一颗人造卫星是俄罗斯的国际卫星，于1957年发射。
[C]: 第一颗人造卫星是苏联发射的，它是由苏联于1957年10月发射的。
[D]: 这颗名为“阿姆斯特朗”的卫星，于1961年11月20日发射，是第一个成功将人类送入太空的卫星。
[E]: 第一颗人造卫星是苏联于1957年4月4日发射的，它是由苏联宇航员尤里·加加林（Yuri Gagarin）和苏联工程师罗尔德·谢尔盖耶夫（Roald Skohley）共同发射的。在发射过程中，加加林和谢尔盖耶夫使用了一个名为“斯普特尼克1号”的小型卫星，它的直径为4.3米，重量为1,051公斤。这枚卫星被称为“斯普特尼克1号”，是苏联太空竞赛中的一个里程碑，也是人类历史上第一次在太空中进行太空行走。


[Q]: 你知道泰山在哪里吗？
[A]: 泰山位于中国东部地区，是中国五岳之一。
[B]: 泰山位于山东省泰安市泰安市。泰安市是中国五岳之一，也是世界文化遗产和中国历史文化名山之一。泰安市有许多著名的景点，如五岳之一、玉皇顶、南天门、玉皇阁等。
[C]: 泰山位于中国山东省泰安市，是中国五岳之一。
[D]: 作为一个人工智能助手，我无法访问互联网，因此无法提供关于你所在位置的信息。不过，你可以通过搜索或搜索相关关键词来获取有关你所在位置的信息，或者查看相关新闻或网站来获取有关你所在位置的信息。
[E]: 泰山位于中国山东省泰安市境内，是中国五岳之一，也是中国文化和历史的重要象征之一。它是中国五岳之一，也是中国道教和佛教的发源地之一。泰山的海拔高度为1,545米，是中国五岳之一，也是中国最著名的旅游景点之一。它的历史可以追溯到公元前5世纪，是中国古代帝王祭祀的场所。泰山也是中国文化的重要组成部分，被誉为“五岳之首”，是中国文化的重要遗产之一。


[Q]: 世界上最高的山峰是什么？
[A]: 世界上最高的山峰是珠穆朗玛峰，位于尼泊尔和中国的边境上，海拔8848米。
[B]: 世界上最高的山峰是珠穆朗玛峰，位于喜马拉雅山脉，海拔8,848米。
[C]: 珠穆朗玛峰是世界上最高的山峰，海拔8848米。
[D]: 世界上最高的山峰是珠穆朗玛峰，位于喜马拉雅山脉，海拔8,848.86米（29,031.69英尺）。
[E]: 世界上最高的山峰是珠穆朗玛峰，也称为萨加玛塔，位于喜马拉雅山脉的尼泊尔和中国边境之间，海拔8,848.86米（29,031.69英尺）。它是世界上最著名的登山目标之一，吸引着来自世界各地的登山者前来挑战。珠穆朗玛峰的名字来自藏语，意思是“女神的额峰”，它是由两个不同的山峰组成的，其中一个是位于尼泊尔的珠穆朗玛峰，另一个则位于中国。它的高度是通过测量海拔高度来确定的，因为它是通过测量地球的平均高度来确定的。尽管珠穆朗玛峰是世界上最高的山峰，但它并不是地球上任何其他地方都能到达的。地球上的其他地方，如南美洲的安第斯山脉，也是世界上最高的山脉，但它并不是地球上最高的山峰。总之，珠穆朗玛峰是世界上最高的山峰，但它并不是地球上任何地方都能到达的。它是地球上最高的山脉，但它并不是地球上任何地方都能到达的。


[Q]: 万有引力是谁提出的？
[A]: 万有引力是由英国物理学家牛顿提出的。他认为，所有物体都会产生引力，这个引力是由物体的质量和距离决定的。这个理论揭示了质量和距离之间的关系，并证明了万有引力的本质。
[B]: 万有引力是由牛顿在1687年提出的。它是宇宙中一个基本的物理现象，它描述了物体之间的相互作用。这个力被称为万有引力，它在所有物体之间都存在，这种力与物体的质量和距离有关。万有引力是自然界中最基本的力量之一，它不仅影响着物体的运动和变化，还对宇宙的结构和演化产生着重要的影响。
[C]: 万有引力是英国物理学家艾萨克·牛顿在17世纪提出的。
[D]: 引力是宇宙中一种力量，它是由质量或能量所组成的。根据牛顿的万有引力定律，一个物体之间的引力大小与它的质量成正比，与它的质量成反比。因此，牛顿的万有引力定律表明，一个物体之间的引力大小与它的质量成正比，与它的质量成反比。这个定律在物理学、天文学和物理学中都有广泛的应用。
[E]: 万有引力是由英国物理学家艾萨克·牛顿于1687年提出的。他在1687年发表了一篇著名的论文，题为《自然哲学的数学原理》，其中提出了万有引力定律，指出任何两个物体之间都存在着一种引力，这种引力的大小与它们的质量成正比，与它们之间的距离的平方成反比。这个定律被称为万有引力定律，它描述了质量和距离之间的关系。它表明，两个物体之间的引力与它们的质量成正比，与它们之间的距离的平方成反比。这个定律对于解释宇宙中的许多现象和现象之间的相互作用非常重要，例如行星绕太阳运动、恒星之间的引力透镜效应等等。它也被广泛应用于天文学、物理学和工程学等领域，为我们理解宇宙的本质和演化提供了重要的理论基础。


[Q]: 你知道大熊猫的主要食物是什么吗？
[A]: 大熊猫的主要食物是竹子。它们通常吃竹子，每天需要吃掉大约30公斤的竹子。
[B]: 是的，大熊猫主要以竹子为食。它们每天需要吃掉大量的竹子来维持生命，每天需要吃掉40至80公斤的竹子。此外，它们也会吃一些其他的植物，如草、果实、坚果和小型哺乳动物。
[C]: 大熊猫主要以竹子为食，也会偶尔食用其他的植物和动物。此外，大熊猫也会吃一些野果、小动物和植物，但这些都不属于它们的主要食物来源。
[D]: 大熊猫的主要食物是竹子。
[E]: 大熊猫是一种以竹子为主要食物的植食动物，它们的肠道结构适合消化纤维素含量高的竹子，但也会吃一些其他植物，如草本植物和小型哺乳动物。大熊猫的肠道结构也适应了高纤维的竹子，这使得它们能够消化大量的纤维素，从而帮助它们在野外生存。大熊猫的肠道中还含有一种叫做“纤维素酶”的酶类物质，这种酶能够帮助大熊猫分解纤维素，从而帮助它们消化大量的水分和营养物质。此外，大熊猫的肠道还含有一种叫做“纤维素蛋白”的蛋白质，这种蛋白质能够帮助大熊猫维持体内的能量水平，从而帮助它们在野外生存。总的来说，大熊猫的主要食物是竹子，但它们也会吃一些其他植物，如草本植物和小型哺乳动物。


[Q]: 海水为什么是咸的？
[A]: 海水中含有许多盐分，这些盐分可以导致海水咸度的增加。海水中的盐分主要来自于海水中的盐分，这些盐分可以从海水中的盐分中获得。海水中的氧化物和盐分可以与海水中的盐分形成氢键，从而使海水咸度增加。
[B]: 海水是咸的，这是因为它含有大量的盐分，其中包括氯离子和氯离子。这些离子在海洋中形成了大量的盐，这些盐分被称为盐分。海水中含有许多溶解在水中的盐，这些盐分会随着海水的升高而逐渐蒸发，最终导致海水中盐分的蒸发。这些盐分在海水中被完全消耗，然后被排除在海水中。此外，海水中还含有许多其他的盐分，但这些盐分是不同的，因为它们在水中的浮起和下降过程是不同的。海水中的盐分是从海底的岩石中提取出来的，这些盐分在海水中可以被利用。总的来说，海水是咸的，这也是为什么海水中含有许多盐分和盐分的原因。
[C]: 海水含有许多溶解的盐类，其中最主要的是氯化钠。当水中加入盐时，盐的分子会与水分子发生反应，形成氢氧化钠，这是一种盐。
[D]: 因为水是许多生物的生存所必需的，它能够吸收和释放二氧化碳，释放氧气，维持大气中的水蒸气，以及维持水循环。水中的盐类和化学物质会释放出氧气，使地球上的生物呼吸。此外，水还具有许多其他功能，如保持水循环、维持水循环、调节气候和环境等。水是许多生物生存所必需的，它也是许多自然现象的重要基础。
[E]: 海水是咸的主要原因是因为其中含有大量的溶解盐类，其中最主要的是氯化钠（NaCl）。氯化钠是一种非常常见的盐类，它存在于地球上的大部分地区，包括海洋、湖泊、河流和地下水。当水从海洋中蒸发时，它会带走一部分盐分，使海水变得咸。此外，海中还含有其他溶解盐类的物质，如硫酸盐、硫酸镁、硫酸钙、硫酸镁盐、硫酸镁钾、硫酸镁钠、硫酸镁钙、硫酸镁镁钙、硫酸镁镁钙、硫酸镁镁钙、硫酸镁镁钠、硫酸镁镁钙、硫酸镁镁镁钙、硫酸镁镁镁钙、硫酸镁镁镁钙、硫酸镁镁镁钙、硫酸镁镁镁钙、硫酸镁镁镁钙、硫酸镁镁镁钙、硫酸镁镁镁钙、硫酸镁镁镁钙、硫酸镁镁镁钙、硫酸镁镁镁镁钙、硫酸镁镁镁镁钙、硫酸镁镁镁镁钙、硫酸镁镁镁镁钙、硫酸镁镁镁镁钙、硫酸镁镁镁镁钙、硫酸镁镁镁镁镁钙、硫酸镁镁镁镁镁钙、硫酸镁镁镁镁镁钙、硫酸镁镁镁镁镁钙、硫酸镁镁镁镁镁镁钙、硫酸镁镁镁镁镁镁钙、硫酸镁镁镁镁镁镁钙、硫酸镁镁镁镁镁镁镁钙、硫酸镁镁镁镁

Note

?‍♂️ Lancez directement la réponse du modèle ci-dessus à GPT-4o et laissez-la aider à marquer :

Commentaires sur les performances du modèle :

Modèle A :
- Performance : les réponses du modèle A étaient généralement concises et claires, mais manquaient de détails et de précision sur certaines questions. Par exemple, concernant la longueur du fleuve Yangtze, la réponse du modèle A est fausse.
- Note : 60
Modèle B :
- Performance : les réponses du modèle B ont fourni des informations supplémentaires sur certaines questions, mais ces informations étaient parfois inexactes ou redondantes. Par exemple, concernant la longueur du fleuve Yangtze, le modèle B fournit une longueur et une zone de drainage inexactes.
- Note : 65
Modèle C :
- Performance : les réponses du modèle C sont généralement plus détaillées et fournissent des informations précises sur la plupart des questions. Par exemple, sur la question du fleuve Yangtze et du mont Tai, la réponse du modèle C est exacte.
- Note : 75
Modèle D :
- Performance : les réponses du modèle D semblaient confuses à certaines questions et manquaient de précision. Par exemple, sur la question de Taishan, la réponse du modèle D était complètement hors sujet.
- Note : 50
Modèle E :
- Performance : les réponses du modèle E étaient généralement très détaillées, mais étaient trop verbeuses sur certaines questions et incluaient des informations inutiles. Par exemple, sur la question de la gravité, la réponse du modèle E est trop complexe.
- Note : 70

Trier (de haut en bas) :

Modèle	C	E	B	UN	D
Fraction	75	70	65	60	50

Résumé des effets

Le tri de la série minimind (ABC) est conforme à l'intuition, et minimind-v1 (0,1B) a le score le plus élevé. Les réponses aux questions de bon sens sont fondamentalement exemptes d'erreurs et d'illusions.
- De manière inattendue, minimind-v1-small (0,02B) n'a que 26 millions de paramètres, mais il peut être proche des performances de minimind-v1 (0,1B).
- Le nombre d' epochs de tours SFT de minimind-v1 (0,1B) est inférieur à 2. Je suis trop paresseux pour tuer à l'avance pour libérer des ressources, car le petit modèle 0,1B atteint toujours les performances les plus élevées même s'il n'a pas été entièrement atteint. entraîné En fait, il est toujours un niveau plus élevé que le précédent mort.
- Les performances de minimind-v1-moe (0,1B) ne sont que légèrement meilleures que celles de minimind-v1-small (0,02B). Cela est également dû à la paresse et à un arrêt précoce pour libérer des ressources pour d'autres formations. -Le mode Experts du modèle MoE nécessite plus de formation. Les tours doivent être plus élevés, le cas échéant, afin que tous les experts de la couche FFN puissent être entièrement formés par l'activation du routage. Lorsque les époques actuelles sont définies sur 3, la formation n'est pas suffisante. Minimind a testé une version entièrement entraînée de moe sur Yi-Tokenizer au début de la phase de vérification expérimentale, et elle peut visiblement mieux fonctionner que le petit modèle dense. Cette partie devra peut-être être laissée pour libérer le serveur pour la formation et mettre à jour les versions v2 et v3 à l'avenir.
La réponse du modèle E semble très bonne à l'œil nu, bien qu'il y ait quelques hallucinations et fabrications. Cependant, les évaluations de GPT-4o et de Deepseek ont convenu qu’il contenait « des informations trop longues, un contenu répété et des illusions ». En fait, ce genre d'évaluation est un peu strict. Même si 10 mots sur 100 sont des hallucinations, on lui attribuera facilement une note faible. Étant donné que la longueur du texte de pré-formation du modèle E est plus longue et que l'ensemble de données est beaucoup plus grand, les réponses semblent complètes. Dans le cas de l’approximation du volume, la quantité et la qualité des données sont importantes.

?‍♂️Évaluation subjective personnelle : E>C>B≈A>D

? Cote GPT-4o : C>E>B>A>D

Loi de mise à l'échelle : plus les paramètres du modèle sont grands et plus il y a de données d'entraînement, plus les performances du modèle sont fortes.

?Ensemble de données objectifs : C-Eval

Voir le code d'évaluation C-Eval : ./eval_ceval.py . Afin d'éviter la difficulté de fixer le format de réponse, l'évaluation des petits modèles détermine généralement directement la probabilité de prédiction du jeton correspondant aux quatre lettres A , B , C , et D , et prend la plus grande réponse. Répondez à la réponse et calculez le taux de précision avec la réponse standard. Le modèle mini-mental lui-même n'a pas utilisé un ensemble de données plus important pour la formation, ni affiné les instructions pour répondre aux questions à choix multiples. Les résultats de l'évaluation peuvent être utilisés comme référence.

Par exemple, les détails du résultat de minimind-small :

Taper	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	vingt-et-un	vingt-deux	vingt-trois	vingt-quatre	25	26	27	28	29	30	31	32	33	34	35	36	37	38	39	40	41	42	43	44	45	46	47	48	49	50	51	52
Données	probabilité_et_statistiques	loi	middle_school_biologie	lycée_chimie	lycée_physique	juridique_professionnel	lycée_chinois	histoire_du_lycée	comptable_taxe	histoire_chinoise_moderne	collège_école_physique	histoire_de_l'école_du_milieu	médecine_de base	système opérateur	logique	ingénieur_électrique	civil_servant	langue_et_littérature_chinoise	programmation_universitaire	comptable	protection_des_plantes	middle_school_chemistry	ingénieur_métrologie	médecine_vétérinaire	marxisme	mathématiques_avancées	lycée_mathématiques	administration des affaires	mao_zedong_thought	culture_idéologique_et_morale	collège_économie	guide_tour_professionnel	environnemental_impact_assessment_engineer	architecture_informatique	planificateur_urbain_et_rural	collège_physique	middle_school_mathématiques	high_school_politique	médecin	collège_chimie	lycée_biologie	lycée_geographie	middle_school_politique	médecine_clinique	réseau_ordinateur	sport_science	études_art	qualification_enseignant	mathématiques_discrètes	éducation_science	ingénieur_pompier	middle_school_geographie

Taper	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	vingt-et-un	vingt-deux	vingt-trois	vingt-quatre	25	26	27	28	29	30	31	32	33	34	35	36	37	38	39	40	41	42	43	44	45	46	47	48	49	50	51	52
T/A	3/18	24/05	21/04	7/19	5/19	2/23	19/04	6/20	10/49	4/23	19/04	4/22	1/19	19/03	4/22	7/37	11/47	5/23	10/37	9/49	22/07	4/20	3/24	23/06	5/19	5/19	18/04	8/33	24/8	5/19	17/55	29/10	31/07	21/06	11/46	5/19	19/03	19/04	13/49	3/24	5/19	19/04	21/06	22/06	19/02	19/02	14/33	12/44	16/06	7/29	31/09	1/12
Précision	16,67%	20,83%	19,05%	36,84%	26,32%	8,70%	21,05%	30,00%	20,41%	17,39%	21,05%	18,18%	5,26%	15,79%	18,18%	18,92%	23,40%	21,74%	27,03%	18,37%	31,82%	20,00%	12,50%	26,09%	26,32%	26,32%	22,22%	24,24%	33,33%	26,32%	30,91%	34,48%	22,58%	28,57%	23,91%	26,32%	15,79%	21,05%	26,53%	12,50%	26,32%	21,05%	28,57%	27,27%	10,53%	10,53%	42,42%	27,27%	37,50%	24,14%	29,03%	8,33%

总题数: 1346  
总正确数: 316  
总正确率: 23.48%

Résumé des résultats :

catégorie	correct	question_count	précision
minimind-v1-petit	344	1346	25,56%
minimind-v1	351	1346	26,08%

Ce qui suit est tiré de l’estimation sauvage de GPT-4o sur les performances de minimind :

 ### 模型擅长的领域：
1. 高中的化学：正确率为42.11%，是最高的一个领域。说明模型在这方面的知识可能较为扎实。
2. 离散数学：正确率为37.50%，属于数学相关领域，表现较好。
3. 教育科学：正确率为37.93%，说明模型在教育相关问题上的表现也不错。
4. 基础医学：正确率为36.84%，在医学基础知识方面表现也比较好。
5. 操作系统：正确率为36.84%，说明模型在计算机操作系统方面的表现较为可靠。

### 模型不擅长的领域：
1. 法律相关：如法律专业（8.70%）和税务会计（20.41%），表现相对较差。
2. 中学和大学的物理：如中学物理（26.32%）和大学物理（21.05%），模型在物理相关的领域表现不佳。
3. 高中的政治、地理：如高中政治（15.79%）和高中地理（21.05%），模型在这些领域的正确率较低。
4. 计算机网络与体系结构：如计算机网络（21.05%）和计算机体系结构（9.52%），在这些计算机专业课程上的表现也不够好。
5. 环境影响评估工程师：正确率仅为12.90%，在环境科学领域的表现也不理想。

### 总结：
- 擅长领域：化学、数学（特别是离散数学）、教育科学、基础医学、计算机操作系统。
- 不擅长领域：法律、物理、政治、地理、计算机网络与体系结构、环境科学。

这表明模型在涉及逻辑推理、基础科学和一些工程技术领域的问题上表现较好，但在人文社科、环境科学以及某些特定专业领域（如法律和税务）上表现较弱。如果要提高模型的性能，可能需要加强它在人文社科、物理、法律、以及环境科学等方面的训练。

? Autres

inférence et dérivation

./export_model.py peut exporter le modèle au format Transformers et le pousser vers Huggingface
Adresse de la collection huggingface de MiniMind : MiniMind

Raisonnement API

my_openai_api.py complète l'interface de chat d'openai_api, facilitant la connexion de vos propres modèles à des interfaces utilisateur tierces telles que fastgpt, OpenWebUI, etc.

Téléchargez le fichier de poids du modèle depuis Huggingface

 minimind (root dir)
├─minimind
|  ├── config.json
|  ├── generation_config.json
|  ├── LMConfig.py
|  ├── model.py
|  ├── pytorch_model.bin
|  ├── special_tokens_map.json
|  ├── tokenizer_config.json
|  ├── tokenizer.json

Démarrez le serveur de discussion
```
python my_openai_api.py
```
Interface du service de test
```
python chat_openai_api.py
```

Exemple d'interface API, compatible avec le format openai api

curl http://ip:port/v1/chat/completions 
  -H " Content-Type: application/json " 
  -d ' { 
    "model": "model-identifier",
    "messages": [ 
      { "role": "user", "content": "世界上最高的山是什么？" }
    ], 
    "temperature": 0.7, 
    "max_tokens": -1,
    "stream": true
} '

photos

Accéder et utiliser l'API minimind dans fastgpt

photos

?Reconnaître

Conseil

Si vous pensez que MiniMind vous est utile, vous pouvez ajouter un article sur GitHub. La longueur n'est pas courte et le niveau est limité. Vous êtes invités à échanger des corrections dans les problèmes ou à soumettre des projets d'amélioration des relations publiques. le moteur de l’amélioration continue du projet.

Note

Tout le monde ajoute de l'huile sur les flammes. Si vous avez essayé de former un nouveau modèle MiniMind, vous êtes invités à partager les poids de votre modèle dans les discussions ou les problèmes. Cela peut concerner des tâches spécifiques en aval ou des domaines verticaux (tels que la reconnaissance des émotions, le médical, le psychologique). , questions et réponses financières, juridiques, etc. ) MiniMind nouvelle version du modèle Il peut également s'agir d'une nouvelle version du modèle MiniMind après une formation prolongée (telle que l'exploration de séquences de texte plus longues, de volumes plus importants (0,1 B+) ou d'ensembles de données plus importants). Tout partage est considéré comme unique, et toutes les tentatives sont précieuses et encouragées. être découvert à temps et organisé dans la liste de remerciements. Merci encore pour tout votre soutien !