VQ VAE on MNIST下載-vq VQ VAE on MNIST源代碼下載

VQ VAE on MNIST

其他源碼

下載

矢量定量的變分自動編碼器（VQ-VAE）

存儲庫由在Pytorch實施並在MNIST數據集中培訓的VQ-VAE組成。

VQ-VAE：概述

VQ-VAE遵循與變量自動編碼器（VAE）背後相同的基本概念。 VQ-VAE使用離散的潛在嵌入對於變量自動編碼器，即z（潛在向量）的每個維度是一個離散的整數，而不是編碼輸入時通常使用的連續正態分佈。

VAE由3個部分組成：

通過潛在的後Q（z | x）參數的編碼網絡
先前的分佈p（z）
輸入數據的具有分佈p（x | z）的解碼器

好吧，您可能會詢問VQ-VAE帶來的差異。讓我們列出它們：

編碼模型一個分類分佈，您可以從中獲得積分值
這些積分值用於索引嵌入的字典
然後將索引值傳遞到解碼器

為什麼引入差異？

許多重要的現實對像是離散的。例如，在圖像中，我們可能有“貓”，“汽車”等類別的類別，而在這些類別之間插入可能是沒有意義的。離散表示也更容易建模。

建築學

在哪裡：

n ：批次大小
h ：圖像高度
w ：圖像寬度
c ：輸入圖像中的通道數
d ：隱藏狀態處的頻道數量

在職的

這是VQ-VAE網絡工作的簡要概述：

VQ-VAE由編碼器，嵌入（或代碼簿）和解碼器組成。
當圖像作為輸入傳遞時，它會使用Encoder網絡將其轉換為潛在向量。

嵌入空間由許多潛在向量組成，這些載體與輸入一個的載體進行了比較。
計算距離，並選擇了與輸入的潛在向量的最相似（最小距離）潛在向量（在嵌入空間中） 。
選定的一個被饋入重建圖像的解碼器網絡。

向量量化層

VQ層的工作可以用六個步驟來解釋：圖中的編號：

重塑：除最後一個外，所有維度都合併為一個，以便我們具有n H w vectors d維度D
計算距離：對於每個N H W向量，我們計算嵌入詞典的每個k矢量的距離以獲得形狀的矩陣（N H W，K）
argmin：對於每個n h w vectors，我們找到了詞典的最接近k矢量的索引
詞典索引：索引索引的最接近的向量來自每個h w vector的詞典
重塑：轉換回形狀（N，H，W，D）
複製梯度：由於梯度不會流過Argmin，因此不可能通過反向傳播訓練這種體系結構。因此，我們嘗試通過將梯度從Z_Q複製回Z_E來近似。這樣，我們實際上並不是最小化損失功能，但仍然能夠將一些信息傳遞回培訓。

損失功能

VQ-VAE使用3個損失來計算訓練期間的總損失：

重建損失：將解碼器和編碼器優化為VAE，即輸入圖像和重建之間的差異：
reconstruction_loss = -log( p(x|z_q) )
代碼書丟失：由於梯度繞過嵌入嵌入，使用L2錯誤將嵌入向量E_I移至編碼器輸出的詞典學習算法。
codebook_loss = ‖ sg[z_e(x)]− e ‖^2
（SG表示停止梯度操作員，這意味著沒有梯度流過任何應用的梯度）
承諾損失：由於嵌入空間的體積是無尺寸的，因此如果嵌入E_I訓練不如Encoder參數訓練，則可以任意增長，因此添加了承諾損失以確保編碼器承諾嵌入嵌入。
commitment_loss = β‖ z_e(x)− sg[e] ‖^2
（β是一種超參數，可以控制我們要與其他組件相比，要權衡承諾損失的程度）

內容

設置說明
從頭開始訓練您的模型
從模型生成圖像
存儲庫概述
結果
1. 訓練圖像
2. 訓練圖
3. 測試圖
4. 生成的圖像
觀察
學分

1。設置說明

您可以通過在CMD提示中運行以下操作來下載回購或克隆

 https://github.com/praeclarumjj3/VQ-VAE-on-MNIST.git

2。從頭開始訓練您的模型

您可以通過以下命令（在Google Colab中）從頭開始訓練模型

 ! python3 VQ-VAE.py --output-folder [NAME_OF_OUTPUT_FOLDER] --data-folder [PATH_TO_MNIST_dataset] --device ['cpu' or 'cuda' ] --hidden-size [SIZE] --k [NUMBER] --batch-size [BATCH_SIZE] --num_epoch [NUMBER_OF_EPOCHS] --lr [LEARNING_RATE] --beta [VALUE] --num-workers [NUMBER_OF_WORKERS]

output-folder - 數據文件夾的名稱
data-folder - 數據文件夾的名稱
device - 設置設備（CPU或CUDA，默認：CPU）
hidden-size - 潛在向量的大小（默認：40）
k潛在向量的數量（默認值：512）
batch-size - 批量尺寸（默認：128）
num-epochs - 時期數（默認值：10）
lr亞當優化器的學習率（默認：2E -4）
beta承諾損失的貢獻，在0.1到2.0之間（默認：1.0）
num-workers - 軌跡採樣的工人數量（默認：cpu_count（） - 1）

該程序會自動下載MNIST數據集並將其保存到PATH_TO_MNIST_dataset文件夾中（您需要創建此文件夾）。這只會發生一次。

它還創建了一個logs文件夾和models文件夾，並且內部創建了一個文件夾，其中傳遞的名稱分別保存了內部的日誌和模型檢查點。

3。從模型生成圖像

要從單位高斯運行以下命令（在Google colab中）隨機生成z採樣的新圖像：

 ! python3 generate.py  --model [SAVED_MODEL_FILENAME] --input [MNIST_or_random] --device ['cpu' or 'cuda' ] --hidden-size [SIZE] --k [NUMBER] --filename [SAVING_NAME]

model - 包含模型的文件名
input -MNIST或隨機
device - 設置設備（CPU或CUDA，默認：CPU）
hidden-size - 潛在向量的大小（默認：40）
k潛在向量的數量（默認值：512）
filename - 要保存哪個文件的名稱

它生成了10*10個圖像網格，這些圖像保存在名為generatedImages文件夾中。

您可以通過從model.txt中的鏈接下載預先訓練的模型。

4。存儲庫概述

存儲庫包含以下文件

modules.py包含用於製作模型的不同模塊
VQ-VAE.py包含訓練我們的VQ-VAE模型的功能和代碼
vector_quantizer.py此文件中定義了向量量化類
generate-py從預訓練的模型中生成新圖像
model.txt包含指向預訓練模型的鏈接
README.md redme概述了倉庫
references.txt
readme_images有多種圖像的讀數
MNIST包含Zipped MNIST數據集（儘管需要在需要時自動下載）
Training track for VQ-VAE.txt - 包含在我們的VQ-VAE模型訓練期間的損失值
logs_VQ-VAE包含我們VQ-VAE模型的拉鍊張板日誌（程序自動創建）
testers.py包含一些測試我們定義的模塊的功能

命令運行張量板（在Google Colab中）：

 %load_ext tensorboard
%tensordboard --logdir [path_to_folder_with_logs]

5。結果

1。培訓圖像

訓練圖像

來自0個時代的圖像

來自第二個時期的圖像

來自第四個時代的圖像

來自6個時代的圖像

來自8個時代的圖像

來自第10個時代的圖像

重建不斷改進，最後幾乎類似於訓練_SET圖像，這反映在損失值（在Training track for VQ-VAE.txt ）。

2。訓練圖

重建損失

量化損失

total_loss

按預期，總損失，重建損失和量化損失均勻減少。

3。測試圖

testing_loss

測試損失按預期均勻減少。

4。生成的圖像

以下圖像網格是在將MNIST圖像作為輸入傳遞後生成的：

這一代很好。

通過從單位高斯作為輸入的AZ採樣後，生成以下圖像網格，然後通過解碼器。

圖像看起來並不完美。調整潛在空間的尺寸，嵌入向量的數量等可以幫助生成更好的隨機圖像。

6。觀察

該模型在Google Colab上接受了10個時期的培訓，其中批量尺寸為128。

訓練後，模型能夠很好地重建輸入圖像，並且還能夠生成新圖像，儘管生成的圖像不太好。
訓練以及測試損失也幾乎單調地減少。

我觀察到，訓練模型為10-20個時期訓練產生了結果，這表明模型中可能有過度擬合的跡象。另外，我嘗試了LatedNT空間的不同維度，最終dimension = 40產生了最佳結果。最佳維度範圍是16-42之間。

7。學分

以下資源有助於使這個存儲庫

神經離散表示學習-Aaron Van den Oord，Oriol Vinyals，Koray Kavukcuoglu
使用VQ-VAE-2-Ali Razavi，Aaron Van den Oord，Oriol Vinyals產生多樣的高保真圖像
https://nbviewer.jupyter.org/github/zalandoresearch/pytorch-vq-vae/blob/master/master/vq-vae.ipynb
https://www.kaggle.com/ameroyer/keras-vq-vae-for-image generation
https://blog.usejournal.com/understanding-vector-quantized-variational-autoencoders-vq-vae-323d710a8888a
https://christineai.blog/pixelcnn-and-pixelrnn/
https://github.com/ritheshkumar95/pytorch-vqvae
https://github.com/ayushtues/genzoo

展開

附加信息

版本
類型其他源碼
更新時間 2025-02-01
大小 34.2MB
來自於 Github

相關應用

visual try on

2024-11-07
龍

2024-07-17
電視上的 Spotify

2024-02-23
旅行應用程式

2023-06-19
彈出

2023-04-08
進擊的泰坦

2022-08-30

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
waymo open dataset

其他源碼

December 2023 Update
SmartTube

其他源碼

24.71 Stable
Sunamu

其他源碼

Release 2.2.0
waymo open dataset

其他源碼

December 2023 Update
wp functions

其他類別

1.0.0
termwind

其他類別

v2.3.0

相關資訊全部