VQ VAE on MNIST Download - VQ VAE on MNIST descargar

VQ VAE on MNIST

Otro código fuente

Descargar

Autoencoder variacional de vectores (VQ-VAE)

El repositorio consiste en un VQ-VAE implementado en Pytorch y capacitado en el conjunto de datos MNIST.

VQ-VAE: descripción general

VQ-VAE siga el mismo concepto básico que detrás de los autoenvocadores variacionales (VAE). VQ-VAE utiliza incrustaciones latentes discretas para codificadores automáticos variacionales , es decir, cada dimensión de Z (vector latente) es un entero discreto, en lugar de la distribución normal continua generalmente utilizada mientras codifica las entradas.

Los VAE consisten en 3 partes:

Una red de codificadores que parametriza la Q (z | x) posterior sobre los latentes
Una distribución previa p (z)
Un decodificador con distribución p (x | z) sobre datos de entrada

Bueno, puede preguntar sobre las diferencias que vq-Vaes traen a la mesa. Vamos a enumerarlos:

Los codificadores modelan una distribución categórica, muestreo del que obtiene valores integrales
Estos valores integrales se utilizan para indexar un diccionario de incrustaciones
Los valores indexados se transmiten al decodificador

¿Por qué introducir las diferencias?

Muchos objetos importantes del mundo real son discretos. Por ejemplo, en imágenes podríamos tener categorías como "gato", "automóvil", etc., y podría no tener sentido interpolar entre estas categorías. Las representaciones discretas también son más fáciles de modelar.

Arquitectura

dónde:

n : tamaño por lotes
h : Altura de la imagen
w : Ancho de imagen
c : Número de canales en la imagen de entrada
d : Número de canales en el estado oculto

Laboral

Aquí hay una breve descripción del funcionamiento de una red VQ-VAE:

VQ-VAE consiste en un codificador, una incrustación (o un libro de códigos) y un decodificador.
Cuando se pasa una imagen como entrada, se convierte en vectores latentes utilizando la red de codificadores .

El espacio de incrustación consiste en muchos vectores latentes, que se comparan con el de la entrada.
Las distancias se calculan y se selecciona el vector latente más similar (menor distancia) (en el espacio de incrustación) al vector latente de la entrada .
El seleccionado se alimenta a la red de decodificadores que reconstruye la imagen .

Capa de cuantificación vectorial

El funcionamiento de la capa VQ se puede explicar en seis pasos como se numera en la figura:

RESHAPE: Todas las dimensiones, excepto las últimas, se combinan en una para que tengamos n H w vectores cada uno de la dimensionalidad D
Distancias calculadoras: para cada uno de los vectores n h w calculamos la distancia de cada uno de los vectores del diccionario de incrustación para obtener una matriz de forma (n h w, k)
Argmin: Para cada uno de los vectores n h w encontramos el índice de los vectores más cercanos de K de Diccionario
Índice del diccionario: indexe el vector más cercano del diccionario para cada uno de los vectores n h w w
RESHAPE: Convertir de nuevo a la forma (N, H, W, D)
Copiando gradientes: no es posible entrenar esta arquitectura a través de la retropropagación, ya que el gradiente no fluirá a través de Argmin. Por lo tanto, intentamos aproximarnos copiando los gradientes de Z_Q de regreso a Z_E. De esta manera, en realidad no estamos minimizando la función de pérdida, pero aún podemos devolver parte de la información para el entrenamiento.

Funciones de pérdida

VQ-VAE utiliza 3 pérdidas para calcular la pérdida total durante el entrenamiento:

Pérdida de reconstrucción: optimiza el decodificador y el codificador como VAE, es decir, la diferencia entre la imagen de entrada y la reconstrucción:
reconstruction_loss = -log( p(x|z_q) )
Pérdida del libro de códigos: debido al hecho de que los gradientes omiten la incrustación, se utiliza un algoritmo de aprendizaje de diccionario que utiliza un error L2 para mover los vectores de incrustación E_I hacia la salida del codificador.
codebook_loss = ‖ sg[z_e(x)]− e ‖^2
(SG representa el operador de gradiente de parada, lo que significa que ningún gradiente fluye a través de lo que se aplique)
Pérdida de compromiso: dado que el volumen del espacio de incrustación es adimensional, puede crecer arbitrariamente si las incrustaciones e_i no entrenan tan rápido como los parámetros del codificador y, por lo tanto, se agrega una pérdida de compromiso para asegurarse de que el codificador se comprometa a una incrustación.
commitment_loss = β‖ z_e(x)− sg[e] ‖^2
(β es un hiperparámetro que controla cuánto queremos sopesar la pérdida de compromiso en comparación con otros componentes)

Contenido

Instrucciones de configuración
Entrenando a su modelo desde cero
Generando imágenes del modelo
Descripción general del repositorio
Resultados
1. Imágenes de entrenamiento
2. Gráficos de entrenamiento
3. Prueba de gráficos
4. Imágenes generadas
Observaciones
Créditos

1. Instrucciones de configuración

Puede descargar el repositorio o clonarlo ejecutando lo siguiente en el aviso CMD

 https://github.com/praeclarumjj3/VQ-VAE-on-MNIST.git

2. Entrenando a su modelo desde cero

Puede entrenar el modelo desde cero por el siguiente comando (en Google Colab)

 ! python3 VQ-VAE.py --output-folder [NAME_OF_OUTPUT_FOLDER] --data-folder [PATH_TO_MNIST_dataset] --device ['cpu' or 'cuda' ] --hidden-size [SIZE] --k [NUMBER] --batch-size [BATCH_SIZE] --num_epoch [NUMBER_OF_EPOCHS] --lr [LEARNING_RATE] --beta [VALUE] --num-workers [NUMBER_OF_WORKERS]

output-folder - Nombre de la carpeta de datos
data-folder : nombre de la carpeta de datos
device : configure el dispositivo (CPU o CUDA, predeterminado: CPU)
hidden-size : tamaño de los vectores latentes (predeterminado: 40)
k - Número de vectores latentes (predeterminado: 512)
batch-size - Tamaño de lote (predeterminado: 128)
num-epochs - Número de épocas (predeterminado: 10)
lr - Tasa de aprendizaje para Adam Optimizer (predeterminado: 2E -4)
beta : contribución de la pérdida de compromiso, entre 0.1 y 2.0 (predeterminado: 1.0)
num-workers - Número de trabajadores para muestreo de trayectorias (predeterminado: cpu_count () - 1)

El programa descarga automáticamente el conjunto de datos MNIST y lo guarda en la carpeta PATH_TO_MNIST_dataset (necesita crear esta carpeta). Esto solo sucede una vez.

También crea una carpeta logs y models de carpeta y dentro de ellos crea una carpeta con el nombre pasado por usted para guardar registros y modelar puntos de control dentro de ella respectivamente.

3. Generación de imágenes del modelo

Para generar nuevas imágenes de Z muestreadas al azar desde una unidad Gaussian Ejecute el siguiente comando (en Google Colab):

 ! python3 generate.py  --model [SAVED_MODEL_FILENAME] --input [MNIST_or_random] --device ['cpu' or 'cuda' ] --hidden-size [SIZE] --k [NUMBER] --filename [SAVING_NAME]

model : nombre de archivo que contiene el modelo
input - Mnist o Random
device : configure el dispositivo (CPU o CUDA, predeterminado: CPU)
hidden-size : tamaño de los vectores latentes (predeterminado: 40)
k - Número de vectores latentes (predeterminado: 512)
filename : nombre con el que se guardará el archivo

Genera una cuadrícula de 10*10 de imágenes que se guardan en una carpeta llamada generatedImages .

Puede usar un modelo previamente capacitado descargándolo desde el enlace en model.txt .

4. Descripción general del repositorio

El repositorio contiene los siguientes archivos

modules.py : contiene los diferentes módulos utilizados para hacer nuestro modelo
VQ-VAE.py : contiene las funciones y el código para capacitar a nuestro modelo VQ-VAE
vector_quantizer.py : las clases de cuantificación vectorial se definen en este archivo
generate-py : genera nuevas imágenes a partir de un modelo previamente capacitado
model.txt : contiene un enlace a un modelo previamente capacitado
README.md - Readme que da una visión general del repositorio
references.txt : referencias utilizadas al crear este repositorio
readme_images - tiene varias imágenes para el readme
MNIST : contiene el conjunto de datos MNIST con cremallera (aunque se descargará automáticamente si es necesario)
Training track for VQ-VAE.txt : contiene los valores de pérdida durante el entrenamiento de nuestro modelo VQ-VAE
logs_VQ-VAE : contiene los registros de placa tensor con cremallera para nuestro modelo VQ-VAE (creado automáticamente por el programa)
testers.py : contiene algunas funciones para probar nuestros módulos definidos

Comando para ejecutar TensorBoard (en Google Colab):

 %load_ext tensorboard
%tensordboard --logdir [path_to_folder_with_logs]

5. Resultados

1. Imágenes de entrenamiento

Imagen de entrenamiento

Imagen de 0th Epoch

Imagen de la 2da época

Imagen de la 4ta época

Imagen de la sexta época

Imagen de la octava época

Imagen de la décima época

Las reconstrucciones siguen mejorando y al final casi se parecen a las imágenes de entrenamiento_set que se reflejan en los valores de pérdida (verifique la Training track for VQ-VAE.txt ).

2. Gráficos de entrenamiento

Pérdida de reconstrucción

Pérdida de cuantificación

Total_loss

La pérdida total, la pérdida de reconstrucción y la pérdida de cuantización disminuyen de manera uniforme como se esperaba.

3. Pruebas de gráficos

Testing_loss

La pérdida de prueba disminuye de manera uniforme como se esperaba.

4. Imágenes generadas

La siguiente cuadrícula de imagen se generó después de pasar imágenes MNIST como entradas:

La generación es bastante buena.

Las siguientes cuadrículas de imagen se generaron después de pasar AZ muestreadas al azar de una unidad gaussiana como entrada al modelo y luego pasó por el decodificador

Las imágenes no se ven perfectas. Sintonizar las dimensiones del espacio latente, el número de vectores de incrustación, etc., puede ayudar a generar mejores imágenes aleatorias.

6. Observaciones

El modelo fue entrenado en Google Colab para 10 épocas, con el tamaño del lote 128.

Después de entrenar, el modelo pudo reconstruir las imágenes de entrada bastante bien, y también pudo generar nuevas imágenes, aunque las imágenes generadas no son tan buenas.
La capacitación y la pérdida de pruebas también siguieron disminuyendo casi monotónicamente.

Observé que el entrenamiento del modelo para más de 10-20 épocas produjo resultados que sugirieron un signo probable de sobreajuste en el modelo. Además, experimenté con diferentes dimensiones del espacio Latednt y en la dimension = 40 produje los mejores resultados. El mejor rango para la dimensión salió a ser entre 16 y 42.

7. Créditos

Las siguientes fuentes ayudaron mucho a hacer este repositorio.

Aprendizaje de representación discreta neuronal - Aaron van den Oord, Oriol Vinyals, Koray Kavukcuoglu
Generación de diversas imágenes de alta fidelidad con VQ-VAE-2-Ali Razavi, Aaron van den Oord, Oriol Vinyals
https://nbviewer.jupyter.org/github/zalandoresearch/pytorch-vq-vae/blob/master/vq-vae.ipynb
https://www.kaggle.com/ameroyer/keras-vq-vae-for-image-generation
https://blog.usJournal.com/understanding-vector-cantized-variational-autoencoders-vq-vae-323d710a888a
https://christineai.blog/pixelcnnn-pixelrnn/
https://github.com/ritheshkumar95/pytorch-vqvae
https://github.com/ayushtues/genzoo

Expandir

Información adicional

Versión
Tipo Otro código fuente
Fecha de actualización 2025-02-01
tamaño 34.2MB
Proviene de Github

Aplicaciones relacionadas

visual try on

2024-11-07
Continuar

2024-07-17
Spotify en la televisión

2024-02-23
Aplicación Viaje en

2023-06-19
pop-on

2023-04-08
Ataque a Titán

2022-08-30

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
waymo open dataset

Otro código fuente

December 2023 Update
SmartTube

Otro código fuente

24.71 Stable
Sunamu

Otro código fuente

Release 2.2.0
waymo open dataset

Otro código fuente

December 2023 Update
wp functions

Otras categorias

1.0.0
termwind

Otras categorias

v2.3.0

Información relacionada Todo