JustJoking.ai Télécharger - JustJoking.ai Téléchargement du code source

JustJoking.ai

Code Source AI

1.0.0

Télécharger

JustJoking.ai

Dans ce projet, j'ai formé un modèle de transformateur pour générer de courtes blagues. Ensuite, avec une légère modification de la méthode d'inférence, j'ai pu utiliser le même modèle de telle sorte qu'étant donné une chaîne initiale en entrée, le modèle essaie de la compléter de manière humoristique.

Il y a deux ordinateurs portables qui effectuent tous deux la même tâche.

Dans Joke Generation.ipynb, j'ai utilisé le modèle GPT2-LM de la bibliothèque HuggingFace pré-entraînée et nous ajustons ce modèle uniquement sur l'ensemble de données des blagues. Puisque nous utilisons l'apprentissage par transfert et affinons les poids, il ne faut qu'environ 4 époques pour obtenir de bons résultats.

Résultat de la génération de blagues Génération de blagues sur les résultats

Résultat de l'achèvement de la peine Résultat de la blague

Dans Joke_Completion_Pure_TF2_Implementation.ipynb , j'ai créé le modèle de transformateur complet à partir de zéro. Puisqu'il commence avec des poids initiaux aléatoires, il faut environ 10 époques pour obtenir un résultat décent de ce modèle.

Résultats Résultat de la blague

Données

Pour notre tâche, nous utiliserons l'ensemble de données fourni sur Kaggle. Il s'agit d'un fichier CSV contenant plus de 200 000 blagues courtes supprimées de Reddit.

Remarque : Étant donné que l'ensemble de données est simplement supprimé de divers subreddits, un grand nombre de blagues contenues dans l'ensemble de données sont assez racistes et sexistes. Étant donné que toute IA considère ses données d’entraînement comme source unique de connaissances, il faut s’attendre à ce que notre modèle génère parfois des blagues similaires.

Pré-traitement :

Une fois que nous avons tokenisé notre chaîne de blague, nous ajoutons un start_token et un end_token aux extrémités de la liste tokenisée. De plus, comme notre chaîne de plaisanterie peut être de longueur différente, nous appliquons également un remplissage dans toutes les chaînes à une max_length spécifiée afin que tous les tenseurs aient une forme similaire dans nos lots.

JustJoking.ai - Utilisation du modèle de tête GPT2-LM

Le code pour cela peut être trouvé dans le notebook Joke Generation.ipynb . En cela, nous importerons le modèle GPT2Tokenizer et TFGPT2LMHead de la bibliothèque HuggingFace. Le code est écrit en Tensorflow2. Le cahier contient des commentaires expliquant le code aux endroits appropriés. En outre, HuggingFace Docs fournit une bonne documentation sur les paramètres d'entrée et la valeur de retour du modèle. Pour l'implémentation basée sur PyTorch, voir le dépôt Humour.ai de Tanul Singh

JustJoking.ai - Construire à partir de zéro à l'aide de l'API TF2

Le code pour cela peut être trouvé dans le notebook Joke_Completion_Pure_TF2_Implementation.ipynb . Pour aller plus loin dans le projet et mieux comprendre comment les choses fonctionnent, j'ai essayé de construire un transformateur sans bibliothèque externe. J'ai fait référence au didacticiel pour Transformers fourni par Tensorflow et j'ai mis certaines des explications mentionnées dans leur didacticiel dans mon cahier avec des explications supplémentaires afin qu'il soit facile de comprendre ce qui se passe.

J'ai d'abord construit un tokenizer pour notre ensemble de données et j'ai tokenisé les chaînes en l'utilisant. Ensuite, j'ai construit une couche pour Positional Encodings et MultiHeadAttention . De plus, j'ai utilisé une Lambda layer pour créer les masques adaptés à nos données.

Ensuite, j'ai créé une decoder layer unique pour notre décodeur. Ce qui suit est l'architecture d'une seule couche de décodeur.

Architecture de la couche de décodeur

Une fois que nous avons la fonction fournissant une « couche de décodeur » prête, j'ai construit une fonction « décodeur » qui accepte les jetons d'entrée et le masque en entrée, ainsi qu'un paramètre de nombre de couches de décodeur dont nous avons besoin et renvoie un modèle pour le même. Pour notre tâche, nous utiliserons un décodeur de langue avec 8 couches de décodeur. Voici l'architecture du décodeur.

Architecture du décodeur

Pour le modèle transformer final, il prend les jetons d'entrée, les transmet à travers la couche lamda pour obtenir le masque et transmet à la fois le masque et les jetons à notre décodeur de langage dont la sortie est ensuite transmise à travers une couche dense. Voici l’architecture de notre modèle final.

Architecture de la couche de décodeur

Si tout cela vous semble intimidant, vous pouvez consulter les cahiers pour plus de clarté. J'ai essayé d'expliquer en détail le processus de construction du transformateur dans le cahier.

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2024-12-30
taille 50MB
Provenant de Github

Applications connexes

Caméra IA Mancai

2023-11-20
IA en un seul coup d'œil

2023-10-24
Fille IA

2023-10-24
Dessin IA

2023-10-24
Peinture Yi Jian ai

2023-03-27
Alien AI

2022-07-29

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
node telegram bot api

Code Source AI

v0.50.0
typebot.io

Code Source AI

v3.1.2
python wechaty getting started

Code Source AI

1.0.0
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout