VQ VAE on MNIST下载-vq VQ VAE on MNIST源代码下载

VQ VAE on MNIST

其他源码

下载

矢量定量的变分自动编码器（VQ-VAE）

存储库由在Pytorch实施并在MNIST数据集中培训的VQ-VAE组成。

VQ-VAE：概述

VQ-VAE遵循与变量自动编码器（VAE）背后相同的基本概念。 VQ-VAE使用离散的潜在嵌入对于变量自动编码器，即z（潜在向量）的每个维度是一个离散的整数，而不是编码输入时通常使用的连续正态分布。

VAE由3个部分组成：

通过潜在的后Q（z | x）参数的编码网络
先前的分布p（z）
输入数据的具有分布p（x | z）的解码器

好吧，您可能会询问VQ-VAE带来的差异。让我们列出它们：

编码模型一个分类分布，您可以从中获得积分值
这些积分值用于索引嵌入的字典
然后将索引值传递到解码器

为什么引入差异？

许多重要的现实对象是离散的。例如，在图像中，我们可能有“猫”，“汽车”等类别的类别，而在这些类别之间插入可能是没有意义的。离散表示也更容易建模。

建筑学

在哪里：

n ：批次大小
h ：图像高度
w ：图像宽度
c ：输入图像中的通道数
d ：隐藏状态处的频道数量

在职的

这是VQ-VAE网络工作的简要概述：

VQ-VAE由编码器，嵌入（或代码簿）和解码器组成。
当图像作为输入传递时，它会使用Encoder网络将其转换为潜在向量。

嵌入空间由许多潜在向量组成，这些载体与输入一个的载体进行了比较。
计算距离，并选择了与输入的潜在向量的最相似（最小距离）潜在向量（在嵌入空间中） 。
选定的一个被馈入重建图像的解码器网络。

向量量化层

VQ层的工作可以用六个步骤来解释：图中的编号：

重塑：除最后一个外，所有维度都合并为一个，以便我们具有n H w vectors d维度D
计算距离：对于每个N H W向量，我们计算嵌入词典的每个k矢量的距离以获得形状的矩阵（N H W，K）
argmin：对于每个n h w vectors，我们找到了词典的最接近k矢量的索引
词典索引：索引索引的最接近的向量来自每个h w vector的词典
重塑：转换回形状（N，H，W，D）
复制梯度：由于梯度不会流过Argmin，因此不可能通过反向传播训练这种体系结构。因此，我们尝试通过将梯度从Z_Q复制回Z_E来近似。这样，我们实际上并不是最小化损失功能，但仍然能够将一些信息传递回培训。

损失功能

VQ-VAE使用3个损失来计算训练期间的总损失：

重建损失：将解码器和编码器优化为VAE，即输入图像和重建之间的差异：
reconstruction_loss = -log( p(x|z_q) )
代码书丢失：由于梯度绕过嵌入嵌入，使用L2错误将嵌入向量E_I移至编码器输出的词典学习算法。
codebook_loss = ‖ sg[z_e(x)]− e ‖^2
（SG表示停止梯度操作员，这意味着没有梯度流过任何应用的梯度）
承诺损失：由于嵌入空间的体积是无尺寸的，因此如果嵌入E_I训练不如Encoder参数训练，则可以任意增长，因此添加了承诺损失以确保编码器承诺嵌入嵌入。
commitment_loss = β‖ z_e(x)− sg[e] ‖^2
（β是一种超参数，可以控制我们要与其他组件相比，要权衡承诺损失的程度）

内容

设置说明
从头开始训练您的模型
从模型生成图像
存储库概述
结果
1. 训练图像
2. 训练图
3. 测试图
4. 生成的图像
观察
学分

1。设置说明

您可以通过在CMD提示中运行以下操作来下载回购或克隆

 https://github.com/praeclarumjj3/VQ-VAE-on-MNIST.git

2。从头开始训练您的模型

您可以通过以下命令（在Google Colab中）从头开始训练模型

 ! python3 VQ-VAE.py --output-folder [NAME_OF_OUTPUT_FOLDER] --data-folder [PATH_TO_MNIST_dataset] --device ['cpu' or 'cuda' ] --hidden-size [SIZE] --k [NUMBER] --batch-size [BATCH_SIZE] --num_epoch [NUMBER_OF_EPOCHS] --lr [LEARNING_RATE] --beta [VALUE] --num-workers [NUMBER_OF_WORKERS]

output-folder - 数据文件夹的名称
data-folder - 数据文件夹的名称
device - 设置设备（CPU或CUDA，默认：CPU）
hidden-size - 潜在向量的大小（默认：40）
k潜在向量的数量（默认值：512）
batch-size - 批量尺寸（默认：128）
num-epochs - 时期数（默认值：10）
lr亚当优化器的学习率（默认：2E -4）
beta承诺损失的贡献，在0.1到2.0之间（默认：1.0）
num-workers - 轨迹采样的工人数量（默认：cpu_count（） - 1）

该程序会自动下载MNIST数据集并将其保存到PATH_TO_MNIST_dataset文件夹中（您需要创建此文件夹）。这只会发生一次。

它还创建了一个logs文件夹和models文件夹，并且内部创建了一个文件夹，其中传递的名称分别保存了内部的日志和模型检查点。

3。从模型生成图像

要从单位高斯运行以下命令（在Google colab中）随机生成z采样的新图像：

 ! python3 generate.py  --model [SAVED_MODEL_FILENAME] --input [MNIST_or_random] --device ['cpu' or 'cuda' ] --hidden-size [SIZE] --k [NUMBER] --filename [SAVING_NAME]

model - 包含模型的文件名
input -MNIST或随机
device - 设置设备（CPU或CUDA，默认：CPU）
hidden-size - 潜在向量的大小（默认：40）
k潜在向量的数量（默认值：512）
filename - 要保存哪个文件的名称

它生成了10*10个图像网格，这些图像保存在名为generatedImages文件夹中。

您可以通过从model.txt中的链接下载预先训练的模型。

4。存储库概述

存储库包含以下文件

modules.py包含用于制作模型的不同模块
VQ-VAE.py包含训练我们的VQ-VAE模型的功能和代码
vector_quantizer.py此文件中定义了向量量化类
generate-py从预训练的模型中生成新图像
model.txt包含指向预训练模型的链接
README.md redme概述了仓库
references.txt
readme_images有多种图像的读数
MNIST包含Zipped MNIST数据集（尽管需要在需要时自动下载）
Training track for VQ-VAE.txt - 包含在我们的VQ-VAE模型训练期间的损失值
logs_VQ-VAE包含我们VQ-VAE模型的拉链张板日志（程序自动创建）
testers.py包含一些测试我们定义的模块的功能

命令运行张量板（在Google Colab中）：

 %load_ext tensorboard
%tensordboard --logdir [path_to_folder_with_logs]

5。结果

1。培训图像

训练图像

来自0个时代的图像

来自第二个时期的图像

来自第四个时代的图像

来自6个时代的图像

来自8个时代的图像

来自第10个时代的图像

重建不断改进，最后几乎类似于训练_SET图像，这反映在损失值（在Training track for VQ-VAE.txt ）。

2。训练图

重建损失

量化损失

total_loss

按预期，总损失，重建损失和量化损失均匀减少。

3。测试图

testing_loss

测试损失按预期均匀减少。

4。生成的图像

以下图像网格是在将MNIST图像作为输入传递后生成的：

这一代很好。

通过从单位高斯作为输入的AZ采样后，生成以下图像网格，然后通过解码器。

图像看起来并不完美。调整潜在空间的尺寸，嵌入向量的数量等可以帮助生成更好的随机图像。

6。观察

该模型在Google Colab上接受了10个时期的培训，其中批量尺寸为128。

训练后，模型能够很好地重建输入图像，并且还能够生成新图像，尽管生成的图像不太好。
训练以及测试损失也几乎单调地减少。

我观察到，训练模型为10-20个时期训练产生了结果，这表明模型中可能有过度拟合的迹象。另外，我尝试了LatedNT空间的不同维度，最终dimension = 40产生了最佳结果。最佳维度范围是16-42之间。

7。学分

以下资源有助于使这个存储库

神经离散表示学习-Aaron Van den Oord，Oriol Vinyals，Koray Kavukcuoglu
使用VQ-VAE-2-Ali Razavi，Aaron Van den Oord，Oriol Vinyals产生多样的高保真图像
https://nbviewer.jupyter.org/github/zalandoresearch/pytorch-vq-vae/blob/master/master/vq-vae.ipynb
https://www.kaggle.com/ameroyer/keras-vq-vae-for-image generation
https://blog.usejournal.com/understanding-vector-quantized-variational-autoencoders-vq-vae-323d710a8888a
https://christineai.blog/pixelcnn-and-pixelrnn/
https://github.com/ritheshkumar95/pytorch-vqvae
https://github.com/ayushtues/genzoo

展开

附加信息