تستكشف هذه المقالة التطورات الحديثة في تقنية نقل نمط الصور المعتمدة على النص والتحديات التي تواجهها. في السنوات الأخيرة، حققت النماذج التوليدية لتحويل النص إلى صورة تقدمًا كبيرًا، مما أتاح نقل نمط أكثر دقة، ولكن لا تزال هناك مشكلات مثل فرط ملاءمة النمط، ومحاذاة النص غير الدقيقة، وتوليد التحف. ومن أجل حل هذه المشكلات، اقترح الباحثون ثلاث استراتيجيات تكميلية، بما في ذلك الدمج متعدد الوسائط القائم على AdaIN، والتوجيه الخالي من المصنف القائم على الأسلوب (SCFG)، واستخدام نماذج المعلم لتثبيت التخطيط، والتحقق من فعاليتها من خلال التجارب، موضحة يؤدي ذلك إلى تحسين جودة الصور التي تم إنشاؤها بشكل كبير واتساقها مع الإشارات النصية.
يعد نقل النمط المعتمد على النص مهمة مهمة في مجال تركيب الصور، حيث يهدف إلى مزج نمط الصورة المرجعية مع المحتوى الموصوف في موجه النص. في الآونة الأخيرة، تم إحراز تقدم كبير في النماذج التوليدية لتحويل النص إلى صورة، مما يتيح نقل نمط أكثر دقة مع الحفاظ على دقة عالية للمحتوى. تتمتع هذه التكنولوجيا بقيمة عملية كبيرة في مجالات مثل الرسم الرقمي والإعلانات وتصميم الألعاب.
ومع ذلك، لا تزال تقنيات نقل النمط الحالية تعاني من بعض أوجه القصور، وتشمل التحديات الرئيسية ما يلي:
تركيب النمط: تميل النماذج الحالية إلى نسخ جميع عناصر الصورة المرجعية، مما يتسبب في أن تكون الصورة التي تم إنشاؤها قريبة جدًا من خصائص صورة النمط المرجعي، مما يحد من المرونة الجمالية والقدرة على التكيف للصورة التي تم إنشاؤها.
محاذاة نص غير دقيقة: قد يعطي النموذج الأولوية للون أو النمط السائد للصورة المرجعية، حتى لو كانت هذه العناصر تتعارض مع التعليمات الواردة في موجه النص.
إنشاء عناصر: يمكن أن يؤدي نقل النمط إلى ظهور عناصر غير مرغوب فيها، مثل الأنماط المتكررة (مثل تأثير رقعة الشطرنج) التي تعطل التخطيط العام للصورة.
ولمعالجة هذه القضايا، اقترح الباحثون ثلاث استراتيجيات متكاملة:
الدمج متعدد الوسائط القائم على AdaIN: استخدم آلية تطبيع المثيل التكيفي (AdaIN) لدمج ميزات صورة النمط في ميزات النص، ثم دمجها مع ميزات الصورة. ينشئ هذا المزيج التكيفي توقيعًا إرشاديًا أكثر تماسكًا، مما يؤدي إلى محاذاة ميزات النمط بشكل أكثر انسجامًا مع التعليمات المستندة إلى النص. يقوم AdaIN بدمج النمط في المحتوى بشكل فعال عن طريق ضبط خصائص المحتوى لتعكس إحصائيات النمط، مع الحفاظ على اتساق المحتوى ووصف النص.
التوجيه الخالي من المصنف المعتمد على النمط (SCFG): قم بتطوير طريقة توجيه النمط التي تركز على النمط المستهدف وتقلل من ميزات النمط غير الضرورية. باستخدام نموذج توليدي يتم التحكم فيه بالتخطيط (مثل ControlNet)، يتم إنشاء صورة "سلبية" تفتقر إلى النمط المستهدف. تعمل هذه الصورة السلبية كإشارة "فارغة" في نموذج الانتشار، مما يسمح للدليل بالتركيز بالكامل على عنصر النمط المستهدف.
تثبيت التخطيط باستخدام نماذج المعلم: تقديم نماذج المعلم في المراحل الأولى من الجيل. يعتمد نموذج المعلم على نموذج تحويل النص إلى صورة الأصلي، ويقوم بتوليد تقليل الضوضاء بنفس إشارات النص في وقت واحد مع نموذج النمط، ويشارك خريطة الاهتمام المكانية الخاصة به في كل خطوة زمنية. تضمن هذه الطريقة توزيعًا مكانيًا مستقرًا ومتسقًا، مما يخفف بشكل فعال من المشكلات مثل قطع الشطرنج الأثرية. علاوة على ذلك، فإنه يحقق تخطيطًا مكانيًا متسقًا لنفس النص الموجه عبر الصور المرجعية ذات الأنماط المختلفة.
وتحقق الباحثون من فعالية هذه الطرق من خلال تجارب مكثفة. تظهر النتائج أن هذه الطريقة يمكن أن تحسن بشكل كبير جودة نقل النمط للصور التي تم إنشاؤها والحفاظ على الاتساق مع الإشارات النصية. والأهم من ذلك، أنه يمكن دمج الطريقة في أطر نقل النمط الحالية دون ضبط دقيق.
ووجد الباحثون من خلال التجارب أن عدم الاستقرار في آلية الانتباه المتبادل يمكن أن يؤدي إلى ظهور التحف. تلعب آلية الاهتمام الذاتي دورًا رئيسيًا في الحفاظ على التخطيط والبنية المكانية للصور من خلال التقاط علاقات مكانية عالية المستوى لتحقيق الاستقرار في التخطيط الأساسي أثناء الإنشاء. من خلال الاستبدال الانتقائي لبعض خرائط الاهتمام الذاتي في صورة منمقة، يمكن الحفاظ على العلاقات المكانية للميزات الرئيسية في الصورة، مما يضمن بقاء التخطيط الأساسي متسقًا طوال عملية تقليل الضوضاء.
علاوة على ذلك، فإن التوجيه الخالي من المصنف المعتمد على النمط (SCFG) يحل بشكل فعال مشكلة غموض النمط من خلال التأكيد بشكل انتقائي على عناصر النمط المطلوبة مع تصفية الميزات غير ذات الصلة أو المتعارضة. يخفف هذا الأسلوب من مخاطر تركيب مكونات النمط غير ذات الصلة باستخدام نموذج يتم التحكم فيه بالتخطيط لإنشاء صور ذات نمط سلبي، مما يسمح للنموذج بالتركيز على نقل مكونات النمط المطلوبة.
أجرى الباحثون أيضًا تجارب استئصال لتقييم تأثير كل مكون. تظهر النتائج أن كلاً من نماذج الدمج متعدد الوسائط ونماذج المعلم القائمة على AdaIN يمكن أن تحسن بشكل كبير دقة محاذاة النص، ولها تأثيرات تكميلية.
باختصار، يمكن للطريقة المقترحة في هذه الدراسة أن تخفف بشكل فعال من مشاكل فرط ملاءمة النمط وعدم استقرار التخطيط الموجودة في تقنيات نقل الأنماط القائمة على النص، وبالتالي تحقيق توليد صور ذات جودة أعلى وتوفير الدعم لمهام تركيب النص إلى الصورة حل قوي.
عنوان الورقة: https://arxiv.org/pdf/2412.08503
يوفر هذا البحث حلاً فعالاً للتحديات الرئيسية في نقل نمط الصور المعتمد على النص، مما يحقق اختراقات جديدة في مجال إنشاء صور عالية الجودة وتوليف النص إلى صورة. نتائج البحث لها آفاق تطبيق واسعة وتستحق المزيد من الدراسة والاستكشاف المتعمق.