Ce référentiel contient tous les éléments nécessaires pour créer votre propre LLM à partir de zéro. Suivez simplement les instructions. Inspiré du générateur nanoGPT et Shakespeare de Karpathy, j'ai créé ce référentiel pour créer mon propre LLM. Il contient tout, de la collecte de données pour le modèle au fichier d'architecture, en passant par le tokenizer et le fichier de train.
Ce dépôt contient :
Avant de configurer SmallLanguageModel, assurez-vous que les conditions préalables suivantes sont installées :
Suivez ces étapes pour entraîner votre propre tokenizer ou générer des sorties à partir du modèle formé :
Clonez ce dépôt :
git clone https://github.com/shivendrra/SmallLanguageModel-project
cd SLM-clone
Installer les dépendances :
pip install requirements.txt
Entraîner : lisez le training.md pour plus d’informations. Suivez-le.
Les demandes de tirage sont les bienvenues. Pour les changements majeurs, veuillez d'abord ouvrir un ticket pour discuter de ce que vous souhaitez changer. Veuillez vous assurer de mettre à jour les tests le cas échéant.
Licence MIT. Consultez License.md pour plus d’informations.