تقدم هذه المقالة محول نموذج الانتشار الجديد VMix الذي اقترحه فريق البحث في ByteDance وجامعة العلوم والتكنولوجيا في الصين، بهدف تحسين الجودة والتأثير الجمالي لتوليد النص إلى صورة. يستخدم VMix طريقة تحكم شرطية ذكية لتحسين الأداء الجمالي لنماذج الانتشار الحالية والحفاظ على الاتساق بين الصور وأوصاف النص دون إعادة تدريب النموذج. فهو يحلل الإشارات النصية إلى محتوى وأوصاف جمالية، ويدمج المعلومات الجمالية في عملية إنشاء الصور من خلال آلية الانتباه المتبادل الهجين لتحقيق تحكم دقيق في جماليات الصورة. المحول متوافق مع مجموعة متنوعة من نماذج المجتمع ولديه مجموعة واسعة من فرص التطبيق.
في مجال توليد الصور من النص، أظهر نموذج الانتشار قدرات غير عادية، ولكن لا تزال هناك بعض أوجه القصور في توليد الصور الجمالية. مؤخرًا، اقترح فريق بحث من ByteDance وجامعة العلوم والتكنولوجيا الصينية تقنية جديدة تسمى محول "Cross-Attention Value Mixing Control" (VMix)، والذي يهدف إلى تحسين جودة الصور المولدة والحفاظ على الحساسية لمختلف العناصر المرئية. تنوع المفهوم.
الفكرة الأساسية لمحول VMix هي تعزيز الأداء الجمالي لنماذج الانتشار الحالية من خلال تصميم طرق تحكم مشروطة فائقة مع ضمان المحاذاة بين الصور والنص.
يحقق هذا المحول هدفه بشكل أساسي من خلال خطوتين: أولاً، يقوم بتحليل إشارات النص المدخلة إلى أوصاف المحتوى والأوصاف الجمالية عن طريق تهيئة التضمينات الجمالية؛ ثانيًا، أثناء عملية تقليل الضوضاء، عن طريق مزج الانتباه المتبادل، ودمج الظروف الجمالية فيه لتعزيز التأثير الجمالي للصورة والحفاظ على التناسق بين الصورة والكلمة السريعة. . تتيح مرونة هذا النهج إمكانية تطبيق VMix على نماذج مجتمعية متعددة دون إعادة التدريب، وبالتالي تحسين الأداء البصري.
وتحقق الباحثون من فعالية VMix من خلال سلسلة من التجارب، وأظهرت النتائج أن الطريقة تفوقت على الأساليب الحديثة الأخرى في توليد الصور الجمالية. وفي الوقت نفسه، يتوافق VMix أيضًا مع مجموعة متنوعة من وحدات المجتمع (مثل LoRA وControlNet وIPAdapter)، مما يؤدي إلى توسيع نطاق تطبيقه.
ينعكس التحكم الدقيق لـ VMix في الجماليات في القدرة على ضبط التضمينات الجمالية، والتي يمكنها تحسين أبعاد محددة للصورة من خلال ملصقات جمالية أحادية البعد، أو تحسين جودة الصورة الإجمالية من خلال ملصقات جمالية أمامية كاملة. في التجارب، عندما يُعطى المستخدم وصفًا نصيًا مثل "فتاة تتكئ على النافذة، أو نسيم يهب، أو صورة صيفية، أو لقطة متوسطة الطول"، يمكن لمحول VMix تحسين جمال الصورة التي تم إنشاؤها بشكل كبير.
يفتح محول VMix اتجاهات جديدة لتحسين الجودة الجمالية لتوليد النص إلى صورة ومن المتوقع أن يحقق إمكاناته في نطاق أوسع من التطبيقات في المستقبل.
مدخل المشروع: https://vmix-diffusion.github.io/VMix/
أبرز النقاط:
يقوم محول VMix بتحليل المطالبات النصية إلى محتوى وأوصاف جمالية من خلال التضمين الجمالي، مما يعزز جودة توليد الصور.
يتوافق هذا المحول مع نماذج المجتمع المتعددة، مما يسمح للمستخدمين بتحسين التأثيرات المرئية للصورة دون إعادة التدريب.
تظهر النتائج التجريبية أن VMix يتفوق على التقنيات الحالية في توليد الجماليات ولديه إمكانات تطبيق واسعة.
بشكل عام، يوفر محول VMix حلاً فعالاً لتحسين براعة وجمال إنشاء صور الذكاء الاصطناعي، كما أنه يؤدي أداءً متميزًا من حيث التوافق وسهولة الاستخدام، مما يوفر اتجاهات وإمكانيات جديدة لتطوير تكنولوجيا توليد الصور المستقبلية.