VQ VAE on MNIST Download - VQ VAE on MNIST Source Code Download

VQ VAE on MNIST

Anderer Quellcode

Herunterladen

Vektor-quantisierter Variationsautoencoder (VQ-VAE)

Das Repository besteht aus einem in Pytorch implementierten VQ-VAE, der auf dem MNIST-Datensatz trainiert wird.

VQ-vae: Übersicht

VQ-vae folgt dem gleichen Grundkonzept wie hinter den Variationsautomatikern (VAE). VQ-vae verwenden diskrete latente Einbettungen für Variations-Auto-Encoder , dh jede Dimension von Z (latenter Vektor) ist eine diskrete Ganzzahl, anstatt der durchgehenden Normalverteilung, die im Allgemeinen bei der Codierung der Eingänge verwendet wird.

Vaes bestehen aus 3 Teilen:

Ein Encoder -Netzwerk, das das hintere q (z | x) über Latenten parametrisiert
Eine frühere Verteilung P (z)
Ein Decoder mit Verteilung P (x | z) über Eingabedaten

Nun, Sie können nach den Unterschieden fragen, die VQ-Vaes auf den Tisch bringen. Lassen Sie uns sie auflisten:

Encoder modellieren eine kategoriale Verteilung, Abtastung, aus der Sie Integralwerte erhalten
Diese integralen Werte werden verwendet, um ein Wörterbuch von Einbettungen zu indizieren
Die indizierten Werte werden dann an den Decoder weitergegeben

Warum die Unterschiede einführen?

Viele wichtige reale Objekte sind diskret. Zum Beispiel haben wir in Bildern Kategorien wie „Katze“, „Car“ usw. und es ist möglicherweise nicht sinnvoll, zwischen diesen Kategorien zu interpolieren. Diskrete Darstellungen sind auch einfacher zu modellieren.

Architektur

Wo:

n : Chargengröße
h : Bildhöhe
w : Bildbreite
c : Anzahl der Kanäle im Eingabebild
d : Anzahl der Kanäle im versteckten Zustand

Arbeiten

Hier ist ein kurzer Überblick über die Arbeit eines VQ-VAE-Netzwerks:

VQ-vae besteht aus einem Encoder, einem Einbettung (oder einem Codebuch) und einem Decoder.
Wenn ein Bild als Eingabe übergeben wird, wird es mit dem Encoder -Netzwerk in latente Vektoren umgewandelt.

Der Einbettungsraum besteht aus vielen latenten Vektoren, die mit dem der Eingabe verglichen werden.
Die Abstände werden berechnet und der ähnlichste (am wenigsten Abstand) latente Vektor (im Einbettungsraum) dem latenten Vektor des Eingangs wird ausgewählt.
Das ausgewählte wird in das Decoder -Netzwerk eingespeist, das das Bild rekonstruiert .

Vektorquantisierungsschicht

Die Funktionsweise der VQ -Schicht kann in sechs Schritten erklärt werden, wie in der Abbildung nummeriert:

Reshape: Alle Dimensionen außer der letzten werden zu einem kombiniert, damit wir jeweils die Dimensionalität d haben
Berechnungsabstände: Für jeden der N H W -Vektoren berechnen wir den Abstand von jedem der K -Vektoren des Einbettungswörterbuchs, um eine Formmatrix zu erhalten (N H W, K)
ARGMIN: Für jedes der N H W Vektoren finden wir den Index der K -Vektoren aus dem Wörterbuch
Index aus dem Wörterbuch: Index den engsten Vektor aus dem Wörterbuch für jedes der N H W Vektoren
Reshape: Zurück in Form (N, H, W, D)
Kopieren von Gradienten: Es ist nicht möglich, diese Architektur durch Backpropagation zu trainieren, da der Gradient nicht durch Argmin fließt. Daher versuchen wir, uns zu approximieren, indem wir die Gradienten von Z_Q zurück nach Z_E kopieren. Auf diese Weise minimieren wir die Verlustfunktion nicht wirklich, können jedoch einige Informationen für das Training zurückgeben.

Verlustfunktionen

VQ-vae verwendet 3 Verluste, um den Totalverlust während des Trainings zu berechnen:

Rekonstruktionsverlust: Optimiert Decoder und Encoder als VAE, dh der Unterschied zwischen dem Eingabebild und der Rekonstruktion:
reconstruction_loss = -log( p(x|z_q) )
Codebuchverlust: Aufgrund der Tatsache, dass Gradienten die Einbettung umgehen, wird ein Wörterbuch -Lernalgorithmus mit einem L2 -Fehler verwendet, um die Einbettungsvektoren E_I in Richtung Encoderausgabe zu verschieben.
codebook_loss = ‖ sg[z_e(x)]− e ‖^2
(SG stellt den Stop -Gradientenoperator dar, was bedeutet, dass kein Gradienten durch alles, auf das er angewendet wird, fließt)
Verpflichtungsverlust: Da das Volumen des Einbettungsraums dimensionlos ist, kann er willkürlich wachsen, wenn die Einbettungen E_I nicht so schnell trainieren wie die Enderparameter, und somit wird ein Verpflichtungsverlust hinzugefügt, um sicherzustellen, dass sich der Enderbetten für eine Einbettung verpflichtet.
commitment_loss = β‖ z_e(x)− sg[e] ‖^2
(β ist ein Hyperparameter, der kontrolliert, wie viel wir im Vergleich zu anderen Komponenten den Verpflichtungsverlust abwägen wollen)

Inhalt

Setup -Anweisungen
Trainieren Sie Ihr Modell von Grund auf neu
Bilder aus dem Modell generieren
Repository -Übersicht
Ergebnisse
1. Trainingsbilder
2. Trainingsdiagramme
3. Testen von Diagrammen
4. Erzeugte Bilder
Beobachtungen
Credits

1. Setup -Anweisungen

Sie können das Repo entweder herunterladen oder klonen, indem Sie Folgendes in der CMD -Eingabeaufforderung ausführen

 https://github.com/praeclarumjj3/VQ-VAE-on-MNIST.git

2. Training dein Modell von Grund auf neu

Sie können das Modell mit dem folgenden Befehl (in Google Colab) von Grund auf neu trainieren (in Google Colab)

 ! python3 VQ-VAE.py --output-folder [NAME_OF_OUTPUT_FOLDER] --data-folder [PATH_TO_MNIST_dataset] --device ['cpu' or 'cuda' ] --hidden-size [SIZE] --k [NUMBER] --batch-size [BATCH_SIZE] --num_epoch [NUMBER_OF_EPOCHS] --lr [LEARNING_RATE] --beta [VALUE] --num-workers [NUMBER_OF_WORKERS]

output-folder - Name des Datenordners
data-folder - Name des Datenordners
device - Setzen Sie das Gerät (CPU oder CUDA, Standard: CPU).
hidden-size Größe der latenten Vektoren (Standard: 40)
k - Anzahl der latenten Vektoren (Standard: 512)
batch-size - Stapelgröße (Standard: 128)
num-epochs - Anzahl der Epochen (Standard: 10)
lr - Lernrate für Adam Optimizer (Standard: 2E -4)
beta - Beitrag des Verpflichtungsverlusts zwischen 0,1 und 2,0 (Ausfall: 1,0)
num-workers - Anzahl der Arbeiter für die Probenahme von Trajektorien (Standard: cpu_count () - 1)

Das Programm lädt den MNIST -Datensatz automatisch herunter und speichert ihn im Ordner PATH_TO_MNIST_dataset (Sie müssen diesen Ordner erstellen). Dies geschieht nur einmal.

Es erstellt außerdem einen Ordner logs " und models , und in dieser erstellt sie einen Ordner mit dem von Ihnen übergebenen Namen, um Protokolle bzw. Modellkontrollpunkte darin zu speichern.

3.. Bilder aus dem Modell generieren

Um neue Bilder von Z zu generieren, die zufällig aus einer Gaußschen Einheit abgetastet wurden, führen Sie den folgenden Befehl aus (in Google Colab):

 ! python3 generate.py  --model [SAVED_MODEL_FILENAME] --input [MNIST_or_random] --device ['cpu' or 'cuda' ] --hidden-size [SIZE] --k [NUMBER] --filename [SAVING_NAME]

model - Dateiname mit dem Modell enthält
input - MNIST oder zufällig
device - Setzen Sie das Gerät (CPU oder CUDA, Standard: CPU).
hidden-size Größe der latenten Vektoren (Standard: 40)
k - Anzahl der latenten Vektoren (Standard: 512)
filename - Name, mit der Datei gespeichert werden soll

Es erzeugt ein 10*10 -Gitter von Bildern, die in einem Ordner namens generatedImages gespeichert sind.

Sie können ein vorgebildetes Modell verwenden, indem Sie es aus dem Link in model.txt herunterladen.

4. Repository -Übersicht

Das Repository enthält die folgenden Dateien

modules.py - Enthält die verschiedenen Module, die für die Herstellung unseres Modells verwendet werden
VQ-VAE.py -Enthält die Funktionen und den Code für die Schulung unseres VQ-VAE-Modells
vector_quantizer.py - Die Vektor -Quantisierungsklassen sind in dieser Datei definiert
generate-py -generiert neue Bilder aus einem vorgebildeten Modell
model.txt - enthält einen Link zu einem vorgebildeten Modell
README.md - Readme gibt einen Überblick über das Repo
references.txt - Referenzen beim Erstellen dieses Repo
readme_images - hat verschiedene Bilder für die Readme
MNIST - Enthält den Reißverschluss -MNIST -Datensatz (obwohl er bei Bedarf automatisch heruntergeladen wird)
Training track for VQ-VAE.txt -Enthält die Verlustwerte während des Trainings unseres VQ-VAE-Modells
logs_VQ-VAE -Enthält die Tensorboard-Protokolle für unser VQ-VAE-Modell (automatisch vom Programm erstellt)
testers.py - Enthält einige Funktionen, um unsere definierten Module zu testen

Befehl zum Ausführen von Tensorboard (in Google Colab):

 %load_ext tensorboard
%tensordboard --logdir [path_to_folder_with_logs]

5. Ergebnisse

1. Trainingsbilder

Trainingsbild

Bild aus der 0. Epoche

Bild aus der 2. Epoche

Bild aus der 4. Epoche

Bild aus der 6. Epoche

Bild aus der 8. Epoche

Bild aus der 10. Epoche

Die Rekonstruktionen verbessern sich immer wieder und ähneln am Ende fast den Training_Set-Bildern, die sich in den Verlustwerten widerspiegeln (Check-in- Training track for VQ-VAE.txt ).

2. Trainingsdiagramme

Wiederaufbauverlust

Quantisierungsverlust

Total_loss

Der Gesamtverlust, der Rekonstruktionsverlust und der Quantisierungsverlust nehmen wie erwartet einheitlich ab.

3. Testen von Diagrammen

Testing_loss

Der Testverlust nimmt wie erwartet einheitlich ab.

4. Erzeugte Bilder

Das folgende Bildgitter wurde erzeugt, nachdem MNIST -Bilder als Eingänge bestanden wurden:

Die Generation ist ziemlich gut.

Die folgenden Bildgitter wurden erzeugt, nachdem AZ nach dem Zufallsprinzip von einem Gaußschen Einheit als Eingabe zum Modell bestanden und dann den Decoder durchlaufen und dann durch den Decoder geführt wurde

Die Bilder sehen nicht perfekt aus. Das Einbinden der Abmessungen des latenten Raums, die Anzahl der Einbettungsvektoren usw. kann dazu beitragen, bessere zufällige Bilder zu erzeugen.

6. Beobachtungen

Das Modell wurde auf Google Colab für 10 Epochen mit einer Chargengröße 128 trainiert.

Nach dem Training konnte das Modell die Eingangsbilder recht gut rekonstruieren und auch neue Bilder generieren, obwohl die generierten Bilder nicht so gut sind.
Das Training sowie der Testverlust nahmen ebenfalls fast monoton ab.

Ich beobachtete, dass das Training des Modells für mehr als 10-20 Epochen Ergebnisse erzielte, die auf ein wahrscheinliches Vorzeichen einer Überanpassung im Modell hinwiesen. Außerdem experimentierte ich mit verschiedenen Dimensionen des Latednt -Raums und in der Enddimension dimension = 40 lieferte die besten Ergebnisse. Der beste Bereich für die Dimension lag zwischen 16 und 42.

7. Credits

Die folgenden Quellen haben sehr geholfen, dieses Repository zu machen

Lernen von neuronalen diskreten Repräsentationen - Aaron van Den Oord, Oriol Vinyals, Koray Kavukcuoglu
Erzeugung vielfältiger High-Fidelity-Bilder mit VQ-VAE-2-Ali Razavi, Aaron van Den Oord, Oriol Vinyals
https://nbviewer.jupyter.org/github/zalandoresearch/pytorch-vq-vae/blob/master/vq-vae.ipynb
https://www.kaggle.com/ameroyer/keras-vq-vae-for-image-generation
https://blog.usejournal.com/undandanding-vector-quantized-variational-autoencoder-vq-vae-323d710a888a
https://christineai.blog/pixelcnn-pixelrnn/
https://github.com/ritheshkumar95/pytorch-vqvae
https://github.com/ayushtues/genzoo

Expandieren

Zusätzliche Informationen