VQ VAE on MNIST Download - VQ VAE on MNIST

VQ VAE on MNIST

شفرة المصدر الأخرى

تنزيل

أدوات تلقائية متباينة المتجهة (VQ-VAE)

يتكون المستودع من VQ-VAE تم تنفيذه في Pytorch وتدريب على مجموعة بيانات MNIST.

VQ-VAE: نظرة عامة

تتبع VQ-VAE نفس المفهوم الأساسي كما هو الحال مع أدوات التنقل التلقائية (VAE). تستخدم VQ-VAE التضمينات الكامنة المنفصلة لمشفرات السيارات المتغيرة ، أي كل بعد من z (المتجه الكامن) هو عدد صحيح منفصل ، بدلاً من التوزيع الطبيعي المستمر المستخدم بشكل عام أثناء ترميز المدخلات.

تتكون VAES من 3 أجزاء:

شبكة التشفير التي تقوم بتصوير Q (z | x) الخلفي على اللاتينية
توزيع مسبق P (Z)
وحدة فك ترميز مع توزيع P (x | z) على بيانات الإدخال

حسنًا ، قد تسأل عن الاختلافات التي تجلبها VQ-VAEs إلى الطاولة. دعونا ندرجهم:

ترميز نموذج التوزيع الفئوي ، وأخذ العينات التي تحصل منها على قيم متكاملة
يتم استخدام هذه القيم المتكاملة لفهرسة قاموس التضمينات
ثم يتم تمرير القيم المفهرسة إلى وحدة فك الترميز

لماذا تقديم الاختلافات؟

العديد من الأشياء المهمة في العالم الحقيقي منفصلة. على سبيل المثال في الصور ، قد يكون لدينا فئات مثل "CAT" ، "Car" ، وما إلى ذلك ، وقد لا يكون من المنطقي الاستيفاء بين هذه الفئات. التمثيلات المنفصلة هي أيضا أسهل في نموذج.

بنيان

أين:

n : حجم الدُفعة
h : ارتفاع الصورة
w : عرض الصورة
c : عدد القنوات في صورة الإدخال
d : عدد القنوات في الحالة الخفية

عمل

فيما يلي نظرة عامة موجزة على عمل شبكة VQ-VAE:

يتكون VQ-VAE من تشفير ، وتضمين (أو دفتر رمز) وفك ترميز.
عندما يتم تمرير الصورة كمدخل ، يتم تحويلها إلى متجهات كامنة باستخدام شبكة التشفير .

تتكون مساحة التضمين من العديد من المتجهات الكامنة ، والتي تتم مقارنتها بمساحة الإدخال.
يتم حساب المسافات ويتم تحديد المتجه الكامن الأكثر تشابهًا (على الأقل) (في مساحة التضمين) إلى المتجه الكامن للمدخلات .
يتم تغذية الشخص المحدد في شبكة فك التشفير التي تعيد بناء الصورة .

طبقة الكمية المتجهات

يمكن تفسير عمل طبقة VQ في ست خطوات كما هو مرقمة في الشكل:

إعادة تشكيل: يتم الجمع بين جميع الأبعاد باستثناء آخرها في واحدة بحيث يكون لدينا ناقلات N H W كل من الأبعاد د
حساب المسافات: لكل من ناقلات N H W نحسب المسافة من كل من ناقلات K من قاموس التضمين للحصول على مصفوفة من الشكل (N H W ، K)
Argmin: لكل من ناقلات N H W نجد مؤشر الأقرب من ناقلات K من القاموس
فهرس من القاموس: فهرس أقرب متجه من القاموس لكل من ناقلات N H W
إعادة تشكيل: تحويل مرة أخرى إلى الشكل (N ، H ، W ، D)
نسخ التدرجات: ليس من الممكن تدريب هذه الهندسة المعمارية من خلال backpropagation لأن التدرج لن يتدفق عبر Argmin. وبالتالي نحاول التقريبية عن طريق نسخ التدرجات من Z_Q إلى Z_E. وبهذه الطريقة ، لا نقلي في الواقع وظيفة الخسارة ، لكننا لا نزال قادرين على تمرير بعض المعلومات للتدريب.

وظائف الخسارة

يستخدم VQ-VAE 3 خسائر لحساب الخسارة الكلية أثناء التدريب:

فقدان إعادة الإعمار: يحسن وحدة فك التشفير والتشفير كـ VAE ، أي الفرق بين صورة الإدخال وإعادة الإعمار:
reconstruction_loss = -log( p(x|z_q) )
فقدان الكود: نظرًا لحقيقة أن التدرجات تتجاوز التضمين ، يتم استخدام خوارزمية تعلم القاموس التي تستخدم خطأ L2 لنقل متجهات التضمين E_I نحو إخراج المشفر.
codebook_loss = ‖ sg[z_e(x)]− e ‖^2
(تمثل SG مشغل التدرج التوقف الذي يعني عدم وجود تدفقات تدرج من خلال كل ما يتم تطبيقه عليه)
فقدان الالتزام: نظرًا لأن حجم مساحة التضمين غير أبعاد ، فقد ينمو بشكل تعسفي إذا لم يتدرب التضمينات E_I بأسرع ما يتراوح من معلمات التشفير ، وبالتالي تتم إضافة خسارة الالتزام للتأكد من أن المشفر يرتبط بتضمين.
commitment_loss = β‖ z_e(x)− sg[e] ‖^2
(β هو مقياس مفرط يتحكم في مقدار ما نريد أن نزن فقدان الالتزام مقارنة بالمكونات الأخرى)

محتويات

تعليمات الإعداد
تدريب نموذجك من الصفر
توليد الصور من النموذج
نظرة عامة على المستودع
نتائج
1. صور تدريب
2. الرسوم البيانية التدريبية
3. اختبار الرسوم البيانية
4. صور تم إنشاؤها
الملاحظات
الاعتمادات

1. تعليمات الإعداد

يمكنك إما تنزيل REPO أو استنساخه عن طريق تشغيل ما يلي في موجه CMD

 https://github.com/praeclarumjj3/VQ-VAE-on-MNIST.git

2. تدريب نموذجك من الصفر

يمكنك تدريب النموذج من الصفر حسب الأمر التالي (في Google Colab)

 ! python3 VQ-VAE.py --output-folder [NAME_OF_OUTPUT_FOLDER] --data-folder [PATH_TO_MNIST_dataset] --device ['cpu' or 'cuda' ] --hidden-size [SIZE] --k [NUMBER] --batch-size [BATCH_SIZE] --num_epoch [NUMBER_OF_EPOCHS] --lr [LEARNING_RATE] --beta [VALUE] --num-workers [NUMBER_OF_WORKERS]

output-folder - اسم مجلد البيانات
data-folder - اسم مجلد البيانات
device - اضبط الجهاز (وحدة المعالجة المركزية أو CUDA ، افتراضي: وحدة المعالجة المركزية)
hidden-size - حجم المتجهات الكامنة (الافتراضي: 40)
k - عدد المتجهات الكامنة (الافتراضي: 512)
batch-size - حجم الدُفعة (الافتراضي: 128)
num-epochs - عدد الحدث (الافتراضي: 10)
lr - معدل التعلم لـ Adam Optimizer (افتراضي: 2E -4)
beta - مساهمة فقدان الالتزام ، بين 0.1 و 2.0 (افتراضي: 1.0)
num-workers - عدد العمال لأخذ عينات المسارات (افتراضي: CPU_Count () - 1)

يقوم البرنامج تلقائيًا بتنزيل مجموعة بيانات MNIST ويحفظها في مجلد PATH_TO_MNIST_dataset (تحتاج إلى إنشاء هذا المجلد). هذا يحدث مرة واحدة فقط.

كما أنه ينشئ مجلد logs ومجلد models وداخلها ينشئ مجلد مع الاسم الذي تم تمريره بواسطتك لحفظ السجلات ونقاط تفتيش النموذج بداخله على التوالي.

3. توليد الصور من النموذج

لإنشاء صور جديدة من Z تم أخذ عينات منها بشكل عشوائي من وحدة Gaussian قم بتشغيل الأمر التالي (في Google Colab):

 ! python3 generate.py  --model [SAVED_MODEL_FILENAME] --input [MNIST_or_random] --device ['cpu' or 'cuda' ] --hidden-size [SIZE] --k [NUMBER] --filename [SAVING_NAME]

model - اسم الملف الذي يحتوي على النموذج
input - mnist أو عشوائي
device - اضبط الجهاز (وحدة المعالجة المركزية أو CUDA ، افتراضي: وحدة المعالجة المركزية)
hidden-size - حجم المتجهات الكامنة (الافتراضي: 40)
k - عدد المتجهات الكامنة (الافتراضي: 512)
filename - الاسم الذي سيتم حفظ الملف به

يولد شبكة 10*10 من الصور التي يتم حفظها في مجلد يدعى generatedImages .

يمكنك استخدام طراز مدرب مسبقًا عن طريق تنزيله من الرابط في model.txt .

4. نظرة عامة على المستودع

يحتوي المستودع على الملفات التالية

modules.py - يحتوي على الوحدات المختلفة المستخدمة لصنع نموذجنا
VQ-VAE.py يحتوي على وظائف ورمز لتدريب نموذج VQ-VAE الخاص بنا
vector_quantizer.py - يتم تعريف فئات قياس الكميات المتجه في هذا الملف
generate-py يولد صورًا جديدة من نموذج تدريب مسبقًا
model.txt - يحتوي على رابط لنموذج مدرب مسبقًا
README.md - ReadMe إعطاء نظرة عامة على الريبو
references.txt - المراجع المستخدمة أثناء إنشاء هذا الريبو
readme_images - يحتوي على صور مختلفة لـ README
MNIST - يحتوي على مجموعة بيانات MNIST المضغوطة (على الرغم من أنه سيتم تنزيلها تلقائيًا إذا لزم الأمر)
Training track for VQ-VAE.txt يحتوي على قيم الخسارة أثناء تدريب نموذج VQ-VAE الخاص بنا
logs_VQ-VAE يحتوي على سجلات اللوح المضغوط لنموذج VQ-VAE (تم إنشاؤه تلقائيًا بواسطة البرنامج)
testers.py - يحتوي على بعض الوظائف لاختبار وحداتنا المحددة

أمر لتشغيل Tensorboard (في Google Colab):

 %load_ext tensorboard
%tensordboard --logdir [path_to_folder_with_logs]

5. النتائج

1. صور التدريب

صورة التدريب

صورة من الفعل 0

الصورة من العصر الثاني

صورة من الفعل الرابع

صورة من العصر السادس

صورة من العصر الثامن

صورة من العاشرة

تستمر عمليات إعادة البناء في التحسن وفي النهاية تشبه تقريبًا صور التدريب التي تنعكس في قيم الخسارة (تحقق من Training track for VQ-VAE.txt ).

2. الرسوم البيانية التدريبية

فقدان إعادة الإعمار

فقدان الكمي

Total_loss

الخسارة الكلية ، وفقدان إعادة الإعمار وفقدان القياس انخفاض بشكل موحد كما هو متوقع.

3. اختبار الرسوم البيانية

testing_loss

انخفاض فقدان الاختبار بشكل موحد كما هو متوقع.

4. صور تم إنشاؤها

تم إنشاء شبكة الصورة التالية بعد تمرير صور mnist كمدخلات:

الجيل جيد جدا.

تم إنشاء شبكات الصورة التالية بعد تمرير أخذ العينات من AZ بشكل عشوائي من وحدة غاوسية كمدخلات للنموذج ثم تم تمريرها عبر وحدة فك الترميز

الصور لا تبدو مثالية. يمكن أن يساعد ضبط أبعاد المساحة الكامنة وعدد ناقلات التضمين وما إلى ذلك في توليد صور عشوائية أفضل.

6. الملاحظات

تم تدريب النموذج على Google Colab لمدة 10 عصر ، مع حجم الدُفعة 128.

بعد تدريب ، تمكن النموذج من إعادة بناء صور الإدخال جيدًا ، وكان قادرًا أيضًا على إنشاء صور جديدة على الرغم من أن الصور التي تم إنشاؤها ليست جيدة جدًا.
كما استمر التدريب وكذلك فقدان الاختبار في الانخفاض تقريبًا.

لاحظت أن تدريب النموذج لأكثر من 10-20 حقبة أنتجت نتائج اقترحت علامة محتملة على التورط في النموذج. أيضا ، جربت أبعاد مختلفة من مساحة listynt وفي dimension = 40 أنتجت أفضل النتائج. جاء أفضل نطاق للبعد بين 16-42.

7. الاعتمادات

ساعدت المصادر التالية كثيرًا في جعل هذا المستودع

التعلم التمثيل المنفصل العصبي - آرون فان دن أوورد ، أوريول فينالس ، كوراي كافوكووجلو
توليد صور متنوعة عالية الدقة مع VQ-VAE-2-علي Razavi ، آرون فان دن أوورد ، أوريول فينيالز
https://nbviewer.jupyter.org/github/zalandoresearch/pytorch-vq-vae/blob/master/vq-vae.ipynb
https://www.kaggle.com/ameroyer/keras-vq-vae-for-image-generation
https://blog.usejournal.com/understing-vector-quantized-variational-autoencoders-vq-vae-323d710a888a
https://christineai.blog/pixelcnn--pixelrnn/
https://github.com/ritheshkumar95/pytorch-vqvae
https://github.com/ayushtues/genzoo

يوسع

معلومات إضافية