vqvaeダウンロードvqvaeソースコードのダウンロード

vqvae

その他のソースコード

1.0.0

ダウンロード

ベクトル量子化変動自動エンコーダー

これは、ベクトルQuantizated変異オートエンコーダー（https://arxiv.org/abs/1711.00937）のpytorch実装です。

Jupyterノートブックで実行できる例を使用して、著者の元の実装をTensorflowで見つけることができます。

依存関係のインストール

依存関係をインストールするには、Python 3を使用してCondaまたは仮想環境を作成し、 pip install -r requirements.txtを実行します。txt。

VQ Vaeを実行します

VQ-Vaeを実行するには、 python3 main.py実行するだけです。モデルを保存する場合は、必ず-saveフラグを含めてください。コマンドラインにパラメーターを追加することもできます。デフォルト値を以下に指定します。

 parser . add_argument ( "--batch_size" , type = int , default = 32 )
parser . add_argument ( "--n_updates" , type = int , default = 5000 )
parser . add_argument ( "--n_hiddens" , type = int , default = 128 )
parser . add_argument ( "--n_residual_hiddens" , type = int , default = 32 )
parser . add_argument ( "--n_residual_layers" , type = int , default = 2 )
parser . add_argument ( "--embedding_dim" , type = int , default = 64 )
parser . add_argument ( "--n_embeddings" , type = int , default = 512 )
parser . add_argument ( "--beta" , type = float , default = .25 )
parser . add_argument ( "--learning_rate" , type = float , default = 3e-4 )
parser . add_argument ( "--log_interval" , type = int , default = 50 )

モデル

VQ VAEには、次の基本モデルコンポーネントがあります。

マップx -> z_eを定義するEncoderクラス
エンコーダ出力を最も近い埋め込みベクトルz_e -> z_qのインデックスである離散1ホットベクトルに変換するVectorQuantizerクラス
マップz_q -> x_hatを定義し、元の画像を再構築するDecoderクラス

エンコーダ /デコーダークラスは、畳み込み式および逆畳み込みスタックであり、アーキテクチャに残留ブロックが含まれます。残差モデルはResidualLayerおよびResidualStackクラスによって定義されます。

これらのコンポーネントは、次のフォルダー構造に編成されています。

 models/
    - decoder.py -> Decoder
    - encoder.py -> Encoder
    - quantizer.py -> VectorQuantizer
    - residual.py -> ResidualLayer, ResidualStack
    - vqvae.py -> VQVAE

Pixelcnn- VQ VAE潜在スペースからのサンプリング

潜在スペースからサンプリングするために、潜在的なピクセル値z_ijにピクセルクンを適合させます。ここでのトリックは、VQ VAEが1チャネル画像と同じ構造を持つ潜在的な空間に画像をマッピングすることを認識することです。たとえば、デフォルトのVQ VAEパラメーターを実行すると、形状(32,32,3)の画像を形状(8,8,1)の潜在スペースにマップします。これは、8x8グレースケール画像に相当します。したがって、PixelCNNを使用して、8x8 1チャンネル潜在スペースの「ピクセル」値に分布することができます。

潜在的な表現でpixelcnnを訓練するには、最初にこれらの手順に従う必要があります。

選択したデータセットでVQ VAEをトレーニングします
保存されたVQ VAEパラメーターを使用してデータセットをエンコードし、 np.save APIで個別の潜在スペース表現を保存します。 quantizer.pyでは、これはmin_encoding_indices変数です。
utils.load_latent_block関数の保存された潜在的な空間データセットへのパスを指定します。
pixelcnnスクリプトを実行します

pixelcnnを実行するには、単に入力します

python pixelcnn/gated_pixelcnn.py

パラメーターと同様に（Argparseステートメントを参照）。デフォルトのデータセットはLATENT_BLOCKです。これは、VQ VAEをトレーニングして潜在表現を保存した場合にのみ機能します。

拡大する

追加情報