VQ VAE on MNIST Téléchargement - VQ VAE on MNIST Source Code Download

VQ VAE on MNIST

Autre code source

Télécharger

Autoencodeur variationnel quantifié du vecteur (VQ-VAE)

Le référentiel se compose d'un VQ-VAE implémenté dans Pytorch et formé sur l'ensemble de données MNIST.

VQ-VAE: Aperçu

VQ-VAE suit le même concept de base que derrière les autocodeurs variationnels (VAE). VQ-VAE utilise des incorporations latentes discrètes pour les encodeurs automobiles variationnels , c'est-à-dire que chaque dimension de z (vecteur latent) est un entier discret, au lieu de la distribution normale continue généralement utilisée lors de la codage des entrées.

Les VAE se composent de 3 parties:

Un réseau d'encodeur qui paramétrise le Q (z | x) postérieur sur les laadis
Une distribution antérieure P (z)
Un décodeur avec distribution p (x | z) sur les données d'entrée

Eh bien, vous pouvez vous poser des questions sur les différences que les VQ-Vaes apportent à la table. Liscons-les:

Les encodeurs modélisent une distribution catégorique, l'échantillonnage à partir desquels vous obtenez des valeurs intégrales
Ces valeurs intégrales sont utilisées pour indexer un dictionnaire des intégres
Les valeurs indexées sont ensuite transmises au décodeur

Pourquoi introduire les différences?

De nombreux objets importants du monde réel sont discrets. Par exemple, dans les images, nous pourrions avoir des catégories comme «chat», «voiture», etc. et cela pourrait ne pas être logique d'interpoler entre ces catégories. Les représentations discrètes sont également plus faciles à modéliser.

Architecture

où:

n : taille du lot
h : hauteur de l'image
w : Largeur d'image
c : Nombre de canaux dans l'image d'entrée
d : Nombre de canaux à l'état caché

Fonctionnement

Voici un bref aperçu du fonctionnement d'un réseau VQ-VAE:

VQ-VAE se compose d'un encodeur, d'une incorporation (ou d'un livre de codes) et d'un décodeur.
Lorsqu'une image est passée en entrée, elle est convertie en vecteurs latents à l'aide du réseau d'encodeur .

L'espace d'incorporation se compose de nombreux vecteurs latents, qui sont comparés à celui de l'entrée.
Les distances sont calculées et le vecteur latent le plus similaire (moins distance) (dans l'espace d'incorporation) au vecteur latent de l'entrée est sélectionné.
Celui sélectionné est introduit dans le réseau de décodeur qui reconstruit l'image .

Couche de quantification vectorielle

Le fonctionnement de la couche VQ peut être expliqué en six étapes comme numéroté sur la figure:

Reshape: toutes les dimensions à l'exception du dernier sont combinées en une pour que nous ayons chacun des vecteurs de dimensionnalité D
Calcul des distances: Pour chacun des vecteurs N H W, nous calculons la distance de chacun des k vecteurs du dictionnaire d'intégration pour obtenir une matrice de forme (n h w, k)
Argmin: Pour chacun des vecteurs N H W, nous trouvons l'indice du plus proche des k vecteurs du dictionnaire
Index du dictionnaire: index le vecteur le plus proche du dictionnaire pour chacun des vecteurs n h w
Reshape: convertir en forme (n, h, w, d)
Copie des gradients: il n'est pas possible de former cette architecture par rétro-épitage car le gradient ne circulera pas à travers Argmin. Par conséquent, nous essayons de nous approximer en copiant les gradients de Z_Q à Z_E. De cette façon, nous ne minimisons pas réellement la fonction de perte, mais nous sommes toujours en mesure de transmettre des informations pour la formation.

Fonctions de perte

VQ-VAE utilise 3 pertes pour calculer la perte totale pendant la formation:

Perte de reconstruction: optimise le décodeur et le codeur sous forme de VAE, c'est-à-dire la différence entre l'image d'entrée et la reconstruction:
reconstruction_loss = -log( p(x|z_q) )
Perte du livre de codes: En raison du fait que les gradients contournent l'incorporation, un algorithme d'apprentissage du dictionnaire qui utilise une erreur L2 pour déplacer les vecteurs d'intégration E_I vers la sortie de l'encodeur est utilisé.
codebook_loss = ‖ sg[z_e(x)]− e ‖^2
(SG représente l'opérateur de gradient d'arrêt, ce qui signifie qu'aucun gradient s'écoule à travers tout ce qu'il est appliqué)
Perte d'engagement: Étant donné que le volume de l'espace d'incorporation est sans dimension, il peut croître arbitrairement si les intégres E_I ne s'entraînent pas aussi vite que les paramètres de l'encodeur, et donc une perte d'engagement est ajoutée pour s'assurer que le codeur s'engage à une incorporation.
commitment_loss = β‖ z_e(x)− sg[e] ‖^2
(β est un hyperparamètre qui contrôle combien nous voulons peser la perte d'engagement par rapport aux autres composants)

Contenu

Instructions de configuration
Former votre modèle à partir de zéro
Générer des images à partir du modèle
Présentation du référentiel
Résultats
1. Images de formation
2. Graphiques d'entraînement
3. Tester les graphiques
4. Images générées
Observations
Crédits

1. Instructions de configuration

Vous pouvez télécharger le dépôt ou le cloner en exécutant ce qui suit dans CMD Invite

 https://github.com/praeclarumjj3/VQ-VAE-on-MNIST.git

2. Entraîner votre modèle à partir de zéro

Vous pouvez former le modèle à partir de zéro par la commande suivante (dans Google Colab)

 ! python3 VQ-VAE.py --output-folder [NAME_OF_OUTPUT_FOLDER] --data-folder [PATH_TO_MNIST_dataset] --device ['cpu' or 'cuda' ] --hidden-size [SIZE] --k [NUMBER] --batch-size [BATCH_SIZE] --num_epoch [NUMBER_OF_EPOCHS] --lr [LEARNING_RATE] --beta [VALUE] --num-workers [NUMBER_OF_WORKERS]

output-folder - Nom du dossier de données
data-folder - Nom du dossier de données
device - Définissez l'appareil (CPU ou CUDA, par défaut: CPU)
hidden-size - taille des vecteurs latents (par défaut: 40)
k - Nombre de vecteurs latents (par défaut: 512)
batch-size - Taille du lot (par défaut: 128)
num-epochs - Nombre d'époches (par défaut: 10)
lr - Taux d'apprentissage pour Adam Optimizer (par défaut: 2e-4)
beta - Contribution de la perte d'engagement, entre 0,1 et 2,0 (par défaut: 1.0)
num-workers - Nombre de travailleurs pour l'échantillonnage des trajectoires (par défaut: cpu_count () - 1)

Le programme télécharge automatiquement l'ensemble de données MNIST et l'enregistre dans le dossier PATH_TO_MNIST_dataset (vous devez créer ce dossier). Cela ne se produit qu'une seule fois.

Il crée également un dossier logs et models et à l'intérieur d'eux crée un dossier avec le nom qui vous a été transmis pour enregistrer respectivement les journaux et les points de contrôle de modèle à l'intérieur.

3. Générer des images à partir du modèle

Pour générer de nouvelles images à partir de Z échantillonnée au hasard à partir d'une unité Gaussian, exécutez la commande suivante (dans Google Colab):

 ! python3 generate.py  --model [SAVED_MODEL_FILENAME] --input [MNIST_or_random] --device ['cpu' or 'cuda' ] --hidden-size [SIZE] --k [NUMBER] --filename [SAVING_NAME]

model - nom de fichier contenant le modèle
input - MNIST ou aléatoire
device - Définissez l'appareil (CPU ou CUDA, par défaut: CPU)
hidden-size - taille des vecteurs latents (par défaut: 40)
k - Nombre de vecteurs latents (par défaut: 512)
filename - nom avec lequel le fichier doit être enregistré

Il génère une grille 10 * 10 d'images qui sont enregistrées dans un dossier nommé generatedImages .

Vous pouvez utiliser un modèle pré-formé en le téléchargeant à partir du lien dans model.txt .

4. Présentation du référentiel

Le référentiel contient les fichiers suivants

modules.py - contient les différents modules utilisés pour fabriquer notre modèle
VQ-VAE.py - contient les fonctions et le code pour la formation de notre modèle VQ-VAE
vector_quantizer.py - Les classes de quantification vectorielle sont définies dans ce fichier
generate-py - Génére de nouvelles images à partir d'un modèle pré-formé
model.txt - contient un lien vers un modèle pré-formé
README.md - Readme donnant un aperçu du repo
references.txt - références utilisées lors de la création de ce repo
readme_images - a diverses images pour le Readme
MNIST - Contient l'ensemble de données MNIST zippé (bien qu'il soit téléchargé automatiquement si nécessaire)
Training track for VQ-VAE.txt - contient les valeurs de perte pendant la formation de notre modèle VQ-VAE
logs_VQ-VAE - Contient les journaux Tensorboard zippés pour notre modèle VQ-VAE (créé automatiquement par le programme)
testers.py - contient certaines fonctions pour tester nos modules définis

Commande pour exécuter Tensorboard (dans Google Colab):

 %load_ext tensorboard
%tensordboard --logdir [path_to_folder_with_logs]

5. Résultats

1. Images de formation

Image de formation

Image de la 0ème époque

Image de la 2e époque

Image de la 4e époque

Image de la 6e époque

Image de la 8e époque

Image de la 10e époque

Les reconstructions continuent de s'améliorer et à la fin ressemblent presque aux images Training_set qui se reflètent dans les valeurs de perte (vérifiez Training track for VQ-VAE.txt ).

2. Graphiques d'entraînement

Perte de reconstruction

Perte de quantification

Total_loss

La perte totale, la perte de reconstruction et la perte de quantification diminuent uniformément comme prévu.

3. Tester les graphiques

Test_loss

La perte de test diminue uniformément comme prévu.

4. Images générées

La grille d'image suivante a été générée après avoir passé des images MNIST comme entrées:

La génération est plutôt bonne.

Les grilles d'image suivantes ont été générées après le passage AZ échantillonné au hasard à partir d'une unité gaussienne comme entrée au modèle, puis passée à travers le décodeur

Les images ne sont pas parfaites. Le réglage des dimensions de l'espace latent, le nombre de vecteurs d'intégration, etc. peuvent aider à générer de meilleures images aléatoires.

6. Observations

Le modèle a été formé sur Google Colab pour 10 époques, avec la taille du lot 128.

Après l'entraînement, le modèle a pu reconstruire les images d'entrée assez bien et a également pu générer de nouvelles images bien que les images générées ne soient pas si bonnes.
La formation ainsi que la perte de test ont également continué à diminuer presque monotone.

J'ai observé que la formation du modèle pour plus de 10 à 20 époques a produit des résultats qui suggéraient un signe probable de sur-ajustement dans le modèle. De plus, j'ai expérimenté différentes dimensions de l'espace laatennt et dans la dimension = 40 ont produit les meilleurs résultats. La meilleure gamme pour la dimension est devenue entre 16 et 42.

7. Crédits

Les sources suivantes ont beaucoup aidé à faire ce référentiel

Représentation discrète neuronale Apprentissage - Aaron van den Oord, Oriol Vinyals, Koray Kavukcuoglu
Génération de diverses images à haute fidélité avec VQ-VAE-2 - Ali Razavi, Aaron van den Oord, Oriol Vinyals
https://nbviewer.jupyter.org/github/zalandoresearch/pytorch-vq-vae/blob/master/vq-vae.ipynb
https://www.kaggle.com/ameroyer/keras-vq-vae-for-image-generation
https://blog.useJournal.com/udgetantspanding-vector-quantized-variational-autoencoders-vq-vae-323d710a888a
https://christineai.blog/pixelcnn-and-pixelrnn/
https://github.com/ritheshkumar95/pytorch-vqvae
https://github.com/ayushttes/genzoo

Développer

Informations supplémentaires

Version
Type Autre code source
Date de mise à jour 2025-02-01
taille 34.2MB
Provenant de Github

Applications connexes

visual try on

2024-11-07
Faites glisser

2024-07-17
Spotify à la télévision

2024-02-23
Application Trip On

2023-06-19
Pop sur

2023-04-08
L'Attaque de Titan

2022-08-30

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
waymo open dataset

Autre code source

December 2023 Update
SmartTube

Autre code source

24.71 Stable
Sunamu

Autre code source

Release 2.2.0
waymo open dataset

Autre code source

December 2023 Update
wp functions

Autres catégories

1.0.0
termwind

Autres catégories

v2.3.0

Actualités connexes Tout