تنزيل vqvae - تنزيل رمز المصدر vqvae

vqvae

شفرة المصدر الأخرى

1.0.0

تنزيل

المتجه كميا تلقائي تلقائي

هذا هو تنفيذ Pytorch للدلو التلقائي المتغير المتجه (https://arxiv.org/abs/1711.00937).

يمكنك العثور على التنفيذ الأصلي للمؤلف في TensorFlow هنا مع مثال يمكنك تشغيله في دفتر Jupyter.

تثبيت التبعيات

لتثبيت التبعيات ، قم بإنشاء كوندا أو بيئة افتراضية مع Python 3 ثم تشغيل pip install -r requirements.txt .

تشغيل VQ VAE

لتشغيل VQ-VAE ببساطة تشغيل python3 main.py تأكد من تضمين علامة -save إذا كنت ترغب في حفظ النموذج الخاص بك. يمكنك أيضًا إضافة معلمات في سطر الأوامر. تم تحديد القيم الافتراضية أدناه:

 parser . add_argument ( "--batch_size" , type = int , default = 32 )
parser . add_argument ( "--n_updates" , type = int , default = 5000 )
parser . add_argument ( "--n_hiddens" , type = int , default = 128 )
parser . add_argument ( "--n_residual_hiddens" , type = int , default = 32 )
parser . add_argument ( "--n_residual_layers" , type = int , default = 2 )
parser . add_argument ( "--embedding_dim" , type = int , default = 64 )
parser . add_argument ( "--n_embeddings" , type = int , default = 512 )
parser . add_argument ( "--beta" , type = float , default = .25 )
parser . add_argument ( "--learning_rate" , type = float , default = 3e-4 )
parser . add_argument ( "--log_interval" , type = int , default = 50 )

النماذج

يحتوي VQ VAE على مكونات النموذج الأساسية التالية:

فئة Encoder التي تحدد الخريطة x -> z_e
فئة VectorQuantizer التي تحول إخراج التشفير إلى متجه منفصل واحد هو فهرس أقرب ناقل التضمين z_e -> z_q
فئة Decoder التي تحدد الخريطة z_q -> x_hat وإعادة بناء الصورة الأصلية

فئات التشفير / وحدة فك الترميز هي مداخن تلافيفية وذاتية ، والتي تشمل الكتل المتبقية في الهندسة المعمارية ، انظر ورقة Resnet. يتم تعريف النماذج المتبقية من قبل فصول ResidualLayer و ResidualStack .

يتم تنظيم هذه المكونات في بنية المجلد التالية:

 models/
    - decoder.py -> Decoder
    - encoder.py -> Encoder
    - quantizer.py -> VectorQuantizer
    - residual.py -> ResidualLayer, ResidualStack
    - vqvae.py -> VQVAE

Pixelcnn - أخذ العينات من الفضاء الكامن VQ VAA

لعينة من المساحة الكامنة ، نناسب pixelcnn على قيم البكسل الكامنة z_ij . تتمثل الحيلة هنا في إدراك أن VQ VAE يقوم بتخطيط صورة إلى مساحة كامنة لها نفس بنية صورة قناة واحدة. على سبيل المثال ، إذا قمت بتشغيل معلمات VQ VAE الافتراضية ، فسوف تقوم بـ RGB Map Images للشكل (32,32,3) إلى مساحة كامنة ذات الشكل (8,8,1) ، والتي تعادل صورة رمادية 8x8. لذلك ، يمكنك استخدام pixelcnn لتناسب توزيع على قيم "Pixel" للمساحة الكامنة 8x8 ذات القناة 1.

لتدريب Pixelcnn على تمثيلات كامنة ، تحتاج أولاً إلى اتباع هذه الخطوات:

تدريب VQ VAE على مجموعة البيانات المفضلة لديك
استخدم معلمات VQ VAE المحفوظة لترميز مجموعة البيانات الخاصة بك وحفظ تمثيلات المساحة الكامنة المنفصلة مع np.save API. في quantizer.py هذا هو متغير min_encoding_indices .
حدد المسار إلى مجموعة بيانات الفضاء الكامنة المحفوظة في وظيفة utils.load_latent_block .
قم بتشغيل البرنامج النصي Pixelcnn

لتشغيل pixelcnn ، ببساطة اكتب

python pixelcnn/gated_pixelcnn.py

وكذلك أي معلمات (انظر عبارات Argparse). مجموعة البيانات الافتراضية هي LATENT_BLOCK التي ستعمل فقط إذا قمت بتدريب VQ VAE وحفظت التمثيلات الكامنة.

يوسع

معلومات إضافية