قام فريق بحث من جامعة سنغافورة الوطنية بتطوير إطار جديد لتوليد الصور يسمى OminiControl، والذي يعمل على تحسين مرونة وكفاءة توليد الصور بشكل كبير. فهو يجمع بذكاء بين تكييف الصورة ونموذج محول الانتشار المدرّب مسبقًا (DiT) لتحقيق قدرات تحكم غير مسبوقة، حتى أنه يمكن تحقيق تكامل الموضوع المعقد بسهولة. سيمنحك محرر Downcodes فهمًا متعمقًا لتفرد OminiControl والتغييرات التي يجلبها إلى مجال إنشاء الصور.
ببساطة، طالما أنك تقدم صورة مادية، يمكنك استخدام OminiControl لدمج السمة الموجودة في الصورة المادية في الصورة التي تم إنشاؤها. على سبيل المثال، قام محرر Downcodes بتحميل صورة المادة على اليسار وأدخل الكلمة السريعة "تم وضع رجل الرقائق بجوار الطاولة في عيادة الطبيب، مع وضع سماعة الطبيب على الطاولة، ويكون التأثير الناتج عامًا نسبيًا". على النحو التالي:
يكمن جوهر OminiControl في "آلية إعادة استخدام المعلمات". تتيح هذه الآلية لنموذج DiT التعامل بفعالية مع ظروف الصورة مع عدد أقل من المعلمات الإضافية. وهذا يعني أنه بالمقارنة مع الطرق الحالية، يحتاج OminiControl فقط إلى 0.1% إلى 0.1% من المعلمات الإضافية لتحقيق وظائف قوية. علاوة على ذلك، فهو قادر على التعامل بشكل موحد مع مهام تكييف الصور المتعددة، مثل التوليد القائم على الموضوع وتطبيق شروط المحاذاة المكانية، مثل الحواف وخرائط العمق وما إلى ذلك. تعتبر هذه المرونة مفيدة بشكل خاص لمهام الإنشاء المستندة إلى الموضوع.
وشدد فريق البحث أيضًا على أن OminiControl يحقق هذه القدرات من خلال تدريب الصور المولدة، وهو أمر مهم بشكل خاص للتوليد القائم على الموضوع. بعد تقييم مكثف، يتفوق OminiControl بشكل كبير على نماذج UNet الحالية ونماذج التكيف DiT في كل من التوليد القائم على الموضوع ومهام التوليد المشروط المتوافقة مكانيًا. توفر نتيجة البحث هذه إمكانيات جديدة للمجال الإبداعي.
ولدعم الأبحاث الأوسع، أصدر الفريق أيضًا مجموعة بيانات تدريبية تسمى Subjects200K، والتي تحتوي على أكثر من 200000 صورة متسقة مع الهوية وتوفر خطًا فعالاً لتوليف البيانات. ستوفر مجموعة البيانات هذه للباحثين موردًا قيمًا لمساعدتهم على استكشاف مهمة إنشاء الإجماع على الموضوع بشكل أكبر.
لا يؤدي إطلاق Omini إلى تحسين كفاءة وتأثير توليد الصور فحسب، بل يوفر أيضًا المزيد من الإمكانيات للإبداع الفني.
التجربة عبر الإنترنت: https://huggingface.co/spaces/Yuanshi/OminiControl
جيثب: https://github.com/Yuanshi9815/OminiControl
الورقة: https://arxiv.org/html/2411.15098v2
يمثل ظهور OminiControl قفزة كبيرة في تكنولوجيا توليد الصور وقد فتحت آلية إعادة استخدام المعلمات الفعالة وقدرات التحكم القوية مسارات جديدة للإبداع الفني والبحث العلمي. في المستقبل، ومع التطور المستمر للتكنولوجيا، أعتقد أن OminiControl سيلعب دورًا مهمًا في المزيد من المجالات وسيقدم لنا تجربة أكثر روعة في توليد الصور.