قام فريق بحث من جامعة سنغافورة الوطنية بتطوير إطار عمل جديد لتوليد الصور يسمى OminiControl، والذي يعمل على تحسين مرونة وكفاءة توليد الصور بشكل كبير من خلال آلية بارعة لإعادة استخدام المعلمات. يستخدم OminiControl نموذج محول الانتشار (DiT) المُدرب مسبقًا، جنبًا إلى جنب مع ظروف الصورة، لتحقيق تكامل قوي للموضوع وقدرات المحاذاة المكانية. حتى مع وجود عدد قليل من المعلمات الإضافية، يمكنه تحقيق نتائج مذهلة. إنه قادر على التعامل مع مجموعة متنوعة من مهام تكييف الصور، مثل الإنشاء القائم على الموضوع والمحاذاة المكانية باستخدام معلومات مثل الحواف وخرائط العمق وما إلى ذلك، مما يُظهر مزايا رائعة في مهام إنشاء الصور التي تعتمد على الموضوع.
في العصر الرقمي الحالي، تتقدم تكنولوجيا توليد الصور بوتيرة مذهلة. مؤخرًا، اقترح فريق بحث من جامعة سنغافورة الوطنية إطارًا جديدًا - OminiControl، يهدف إلى تحسين مرونة وكفاءة توليد الصور. يوفر هذا الإطار إمكانات تحكم غير مسبوقة من خلال الجمع بين ظروف الصورة والاستفادة الكاملة من نموذج Diffusion Transformer (DiT) الذي تم تدريبه بالفعل.
ببساطة، طالما أنك تقدم صورة مادية، يمكنك استخدام OminiControl لدمج السمة الموجودة في الصورة المادية في الصورة التي تم إنشاؤها. على سبيل المثال، قام المحرر بتحميل الصورة المادية على اليسار وأدخل الكلمة السريعة "تم وضع رجل الرقائق بجوار الطاولة في عيادة الطبيب، مع وضع سماعة الطبيب على الطاولة." التأثير الناتج عام نسبيًا، على النحو التالي :
يكمن جوهر OminiControl في "آلية إعادة استخدام المعلمات". تتيح هذه الآلية لنموذج DiT التعامل بفعالية مع ظروف الصورة مع عدد أقل من المعلمات الإضافية. وهذا يعني أنه بالمقارنة مع الطرق الحالية، يحتاج OminiControl فقط إلى 0.1% إلى 0.1% من المعلمات الإضافية لتحقيق وظائف قوية. علاوة على ذلك، فهو قادر على التعامل بشكل موحد مع مهام تكييف الصور المتعددة، مثل التوليد القائم على الموضوع وتطبيق شروط المحاذاة المكانية، مثل الحواف وخرائط العمق وما إلى ذلك. تعتبر هذه المرونة مفيدة بشكل خاص لمهام الإنشاء المستندة إلى الموضوع.
وشدد فريق البحث أيضًا على أن OminiControl يحقق هذه القدرات من خلال تدريب الصور المولدة، وهو أمر مهم بشكل خاص للتوليد القائم على الموضوع. بعد تقييم مكثف، يتفوق OminiControl بشكل كبير على نماذج UNet الحالية ونماذج التكيف DiT في كل من التوليد القائم على الموضوع ومهام التوليد المشروط المتوافقة مكانيًا. توفر نتيجة البحث هذه إمكانيات جديدة للمجال الإبداعي.
ولدعم البحث الأوسع، أصدر الفريق أيضًا مجموعة بيانات تدريبية تسمى Subjects200K، والتي تحتوي على أكثر من 200000 صورة متسقة مع الهوية وتوفر خطًا فعالاً لتوليف البيانات. ستوفر مجموعة البيانات هذه للباحثين موردًا قيمًا لمساعدتهم على استكشاف مهمة إنشاء الإجماع على الموضوع بشكل أكبر.
لا يؤدي إطلاق Omini إلى تحسين كفاءة وتأثير توليد الصور فحسب، بل يوفر أيضًا المزيد من الإمكانيات للإبداع الفني. ومع استمرار التقدم التكنولوجي، سيكون توليد الصور في المستقبل أكثر ذكاءً وتخصيصًا.
التجربة عبر الإنترنت: https://huggingface.co/spaces/Yuanshi/OminiControl
جيثب: https://github.com/Yuanshi9815/OminiControl
الورقة: https://arxiv.org/html/2411.15098v2
تسليط الضوء على:
يستخدم OminiControl آلية إعادة استخدام المعلمات لجعل التحكم في توليد الصور أكثر قوة وكفاءة.
يمكن لإطار العمل التعامل مع مهام حالة الصورة المتعددة في نفس الوقت، مثل الحواف وخرائط العمق وما إلى ذلك، للتكيف مع الاحتياجات الإبداعية المختلفة.
أصدر الفريق Subjects200K، وهي مجموعة بيانات تضم أكثر من 200000 صورة، لتسهيل المزيد من البحث والاستكشاف.
يمثل ظهور OminiControl علامة فارقة جديدة في تكنولوجيا توليد الصور. توفر آلية إعادة استخدام المعلمات الفعالة وقدراتها القوية متعددة المهام للفنانين والباحثين أدوات قوية، كما تبشر أيضًا بالإمكانات غير المحدودة لتكنولوجيا توليد الصور المستقبلية. لا تتردد في زيارة الرابط المقدم لمعرفة المزيد من التفاصيل وتجربة OminiControl.