نقل النمط العصبي هو أسلوب تحسين يستخدم لالتقاط صورتين - صورة محتوى وصورة مرجعية للنمط (مثل عمل فني لرسام مشهور) - ومزجهما معًا بحيث تبدو الصورة الناتجة مثل صورة المحتوى، ولكن "مرسومة" في نمط الصورة المرجعية للنمط.
يتم تنفيذ ذلك عن طريق تحسين الصورة الناتجة لتتوافق مع إحصائيات محتوى صورة المحتوى وإحصائيات النمط للصورة المرجعية للنمط. يتم استخراج هذه الإحصائيات من الصور باستخدام شبكة تلافيفية.
لتشغيل دفتر الملاحظات، يرجى استنساخ هذا المستودع، وبدء تشغيل خادم دفتر Jupyter في الدليل الصحيح، وفتح دفتر الملاحظات المسمى style_transfer_gan.ipynb
. يحتوي هذا الدفتر أيضًا على رمز لبرنامج تعليمي حول كيفية عمل نقل النمط؛ يتخلل رمز البيانات الموجودة في هذا الريبو طوال الوقت.
لرؤية رمز StarGan، يرجى فتح دفتر الملاحظات المسمى StarGAN_v2_celeb_face_synthesizer.ipynb
.
يمكن العثور على الأنماط الفنية التي استخدمناها في مجلد art-styles
وتتضمن ما يلي:
استخدمنا ثلاثة وجوه من المشاهير في دفتر نقل النمط الأصلي: celebrity-faces/male/the-weeknd.jpg
و celebrity-faces/male/wesley-snipes.jpg
و celebrity-faces/female/lady-gaga.jpg
.
بالنسبة إلى دفتر StarGAN، استخدمنا مجموعة مختارة من الصور من مجموعة بيانات Celeb A-HQ. هذه هي الصور المتبقية في دليل celebrity-faces/
.
سوف يستكشف هذا القسم العمل الموجود في style_transfer_gan.ipynb
. لفهم كيفية أداء نقل النمط العصبي على الوجوه المختلفة، قمنا بتغذية صور محتوى متعددة (الوجوه) من خلال نموذجنا واخترنا ثلاثًا قررنا أنها ستوفر اختلافًا كافيًا في لون البشرة وبنية الوجه. بالنسبة لكل وجه، استخدمنا الأنماط الفنية العشرة المذكورة أعلاه كصور مرجعية لأسلوبنا. كان الاتجاه العام الذي لاحظناه هو أن الأنماط التي كانت أكثر تشابهًا مع وجه الشخص وخلفيات صوره حققت نتائج أفضل من الأنماط التي كانت مختلفة تمامًا.
بالنسبة لـ The Weeknd، اخترنا صورة تم التقاطها بعد خضوعه لعملية جراحية تجميلية، مما منحه بنية وجه مختلفة تمامًا. في حالته، رأينا أن الأساليب التي كانت مختلفة بنفس القدر عن القاعدة، مثل التكعيبية أو السريالية، أنتجت نتائج أفضل من أسلوب مثل الكلاسيكية (انظر أدناه).
تظهر السريالية مقابل الكلاسيكية على وجه The Weeknd
وبالمثل، نظرًا لأن لون بشرة ويسلي سنايبس أغمق والألوان الموجودة في خلفية صورته الأصلية أيضًا أكثر كتمًا، فإن الأنماط ذات الألوان المماثلة كانت أكثر دقة. قارن نتائج التكعيبية والوحشية أدناه:
التكعيبية مقابل الفوفيسم تظهر على وجه ويسلي سنايبس
ومع ذلك، كانت نتائج ليدي غاغا أكثر تكافؤًا في جميع المجالات. ظلت معظم الأنماط قادرة على التقاط بعض تفاصيل وجهها دون تكبد الكثير من الخسارة. كما ترون، فإن التوحشية - التي لم تنجح بشكل جيد مع وجه ويسلي سنايبس - تعمل بشكل أفضل هنا.
نتائج Fauvsim مقابل الكلاسيكية على وجه ليدي غاغا
هناك العديد من الأسباب التي تجعل وجه ليدي غاغا قد حقق نتائج أفضل بشكل عام، ولكن التفسير المحتمل هو البيانات التي تم استخدامها لتدريب نموذج نقل الأسلوب. إذا تم تزويد النموذج بمزيد من الوجوه البيضاء في التدريب، فمن المرجح أن يؤدي أداءً أفضل مع الوجوه البيضاء في الاختبار.
سوف يستكشف هذا القسم العمل في StarGAN_v2_celeb_face_synthesizer.ipynb
. StarGAN v2، نموذج ترجمة الصور الذي طورته شركة Clova AI يتعلم التعيين بين الصور المختلفة. استخدمنا شبكة Star GAN التي تم تدريبها مسبقًا باستخدام مجموعة بيانات CelebA-HQ بالإضافة إلى مجموعة من وجوه المشاهير من مختلف الأجناس وألوان البشرة وملامح الوجه وتعديلات الوجه/الجسم (الوشم والجراحة التجميلية) كمجموعة بيانات الصور المصدر لدينا، ومجموعة بيانات CelebA-HQ كمجموعة بيانات الصور المرجعية لدينا. تم تقسيم مجموعة البيانات المصدرية لدينا إلى مجالين: الإناث والذكور
فيما يلي قائمة بالصور المصدر التي اخترنا تجميعها.
روشيل هيومز | أريانا غراندي | المطربه سيدة غاغا | جنيفر لورانس |
---|---|---|---|
كريس هيمسوورث | مايك تايسون | دونالد ترامب | ذا ويكند | ويسلي سنايبس |
---|---|---|---|---|
لقد قمنا بتحويل جميع الصور المحددة عن طريق قص الصورة إلى نسبة 1:1 تقريبًا قدر الإمكان، مع وضع الوجه في المنتصف، واحتلال جزء كبير من الصورة. قمنا بعد ذلك بضبط الصورة للحصول على مزيد من التدوير الدقيق والاقتصاص باستخدام الأداة المدمجة التي توفرها Clova AI. أخيرًا، قمنا بتغذية هذه الصور الدقيقة إلى شبكة StarGAN المدربة مسبقًا وقمنا بإنشاء صور مخرجات مركبة.
أظهرت النتائج التي توصلنا إليها أن سمات الوجه المميزة مثل خطوط الفك والشفاه القوية قد تم نشرها عبر مختلف الأجناس وألوان البشرة في الصور المولدة/المخرجة. بالنسبة لوجوه مثل The Weeknd التي خضعت لتعديلات في الوجه (مثل الجراحة التجميلية)، لاحظنا أن هذه الميزات ظلت أيضًا متميزة في الصور التي تم إنشاؤها. ومع ذلك، فإن الصور التي تم إنشاؤها لم تكن واقعية كما هو متوقع، حيث يتم اتباع الميزات عالية المستوى مثل تصفيفة الشعر والمكياج واللحية ولون البشرة من الصور المرجعية. ومع ذلك، يبدو أن الميزات الأخرى مثل الوشم تم الحفاظ عليها من الصورة المصدر. وبالمثل، احتفظ النموذج بوضعية وهوية الصور المصدر في معظم الصور الناتجة
تظهر نتيجة تجربتنا أدناه