lad gpt Télécharger - lad gpt Téléchargement du code source

lad gpt

Code Source AI

October 2023 Release

Télécharger

Entraînez un modèle de langage sur vos discussions WhatsApp

Aperçu

Ce référentiel facilite la formation d'un modèle de langage au niveau des caractères ou des mots uniquement basé sur les messages de discussion WhatsApp. Après la formation du modèle, on peut lancer une conversation synthétique avec le groupe de discussion WhatsApp formé.

Messages de chat : j'ai formé le modèle en privé sur les chats Whatsapp d'un groupe de plus de 8 millions de caractères. Le assets/input/chat.txt n'est qu'un espace réservé, à remplacer par le corpus réel des messages de discussion.
Modèle de langage : le modèle suit de près l'architecture introduite dans « Attention Is All You Need » (2017) par Vaswani et. al.. De plus, l'implémentation pytorch du modèle est fortement inspirée d'un didacticiel vidéo d'Andrew Kaparty.
Résultats : Bien que les performances globales de mon modèle formé en privé ne soient clairement pas comparables à celles des modèles de langage sota, le texte généré présente clairement des modèles linguistiques et un vocabulaire reconnaissables.

Structure des dossiers

 |-- assets
|   |-- input
|   |   |-- chat.txt
|   |-- output
|   |   |-- contacts.txt
|   |   |-- vocab.txt
|   |   |-- train.pt
|   |   |-- valid.pt
|   |-- models
|   |   |--model.pt
|-- src
|   |-- chat.py
|   |-- model.py
|   |-- preprocess.py
|   |-- train.py
|   |-- utils.py
|-- config.py
|-- run.py

Description des actifs :

assets/input/chat.txt: le fichier d'entrée doit être un chat WhatsApp exporté (sans média).
assets/output/: les données de formation/validation codées et le modèle formé seront écrits dans cette localisation.
assets/models/model.pt: objet modèle pytorch entraîné.

Description des modules :

src/preprocess.py: convertit les messages de discussion en tenseurs PyTorch codés. Les données sont divisées en ensembles de formation et de validation.
src/model.py: définit la classe de modèle de langage.
src/train.py: contient le code pour entraîner le modèle de langage.
src/chat.py: contient la fonction d'interaction conversationnelle avec le modèle.
src/utils.py: Autres fonctions utilitaires utiles.
run.py: le script principal avec un analyseur d'arguments pour appeler l'une des trois actions ("prétraitement", "train", "chat").
config.py: les paramètres de prétraitement et de formation du modèle sont enregistrés.

Comment commencer

Installation:

 git clone https://github.com/bernhard-pfann/lad-gpt.git
cd lad-gpt
pip install -r requirements.txt

Pour utiliser pleinement ce projet, vous aurez besoin d'un fichier .txt contenant les messages d'un chat WhatsApp. Voici les étapes pour exporter votre discussion de groupe WhatsApp dans un fichier .txt :

Pour les utilisateurs d'Android :

Ouvrez WhatsApp et accédez à la discussion de groupe : ouvrez l'application WhatsApp sur votre appareil Android et accédez à la discussion de groupe que vous souhaitez exporter.
Appuyez sur les trois points : ils se trouvent généralement dans le coin supérieur droit de la fenêtre de discussion.
Plus -> Exporter le chat : Choisissez « Plus » dans la liste déroulante, puis sélectionnez « Exporter le chat ».
Choisissez Sans média : vous aurez la possibilité d'inclure ou d'exclure des médias. Choisissez « Sans média » pour exporter uniquement les messages texte.
Sélectionnez la méthode d'exportation : vous serez invité à sélectionner la manière dont vous souhaitez exporter le chat. Vous pouvez l'envoyer à votre adresse e-mail et à partir de là, le télécharger sous forme de fichier .txt.

Pour les utilisateurs d'iPhone :

Ouvrez WhatsApp et accédez à la discussion de groupe : ouvrez l'application WhatsApp sur votre iPhone et accédez à la discussion de groupe que vous souhaitez exporter.
Appuyez sur le nom du groupe : il se trouve en haut de la fenêtre de discussion pour accéder à « Informations sur le groupe ».
Faites défiler vers le bas et exportez le chat : faites défiler vers le bas et vous verrez une option « Exporter le chat ». Appuyez dessus.
Choisissez sans média : une fenêtre contextuelle apparaîtra vous demandant si vous souhaitez inclure des fichiers multimédias. Sélectionnez « Sans média ».
Sélectionnez la méthode d'exportation : choisissez une option pour exporter la discussion, par exemple via Mail. Vous pouvez ensuite télécharger le fichier texte depuis votre email.

Une fois que vous avez le fichier .txt, placez-le dans le répertoire assets/input , appelé chat.txt . Alors vous êtes prêt à partir !

Instructions pour les terminaux

Une fois les données d'entrée en place, les discussions doivent être codées en tenseurs numériques. Les données codées sont également divisées en ensembles de formation et de validation :

 python run.py preprocess

Pour former un modèle de langage à partir de zéro et uniquement sur la base des données de discussion encodées. Définissez --update au cas où vous souhaiteriez continuer à entraîner un modèle déjà existant.