يمثل إصدار نموذج Stable Diffusion 3 تقدمًا كبيرًا في إنشاء تحويل النص إلى صورة. يستخدم هذا النموذج نفس بنية DiT مثل Sora ويحسن بشكل كبير جودة توليد الصور من خلال سلسلة من التحسينات التقنية. يتراوح حجم المعلمة من 800M إلى 8B، مما يظهر أداءً قويًا وإمكانات تطبيق مرنة. ومن الجدير بالذكر أن فريق البحث والتطوير في SD3 يدمج خبرات أعضاء البحث والتطوير الأساسيين في Sora والأساتذة المساعدين في جامعة نيويورك، ويعتمد بنية MMDiT المتفوقة على UViT وDiT، بالإضافة إلى متغيرات صيغة التدفق المعدل (RF) المبتكرة، والتي هي ويوفر أساسًا متينًا لتحسين أداء النموذج.
تم إصدار نموذج Stable Diffusion 3 باستخدام نفس بنية DiT مثل Sora، مع تحسينات كبيرة في الجودة. يذكر المؤلفون أن Stable Diffusion 3 يتفوق في الأداء على أنظمة تحويل النص إلى الصورة الأخرى، حيث تتراوح أحجام المعلمات من 800M إلى 8B. تعتمد بنية SD3 على التعاون بين أعضاء البحث والتطوير الأساسيين في Sora والأساتذة المساعدين في جامعة نيويورك، وذلك باستخدام بنية MMDiT للتفوق على UViT وDiT. يعتمد الانتشار المستقر 3 على صيغة التدفق المعدل (RF)، ويستمر أداء متغير التردد اللاسلكي المعاد وزنه الذي اقترحه المؤلف في التحسن. يتم توسيع النموذج وتحسينه باستخدام برنامج تشفير نص مرن، ويتم مقارنة أدائه مع النماذج الأخرى.
لا يعكس إصدار Stable Diffusion 3 التطور السريع لتكنولوجيا تحويل النص إلى صورة فحسب، بل يشير أيضًا إلى ظهور المزيد والمزيد من النماذج القوية في مجال إنشاء صور الذكاء الاصطناعي في المستقبل. توفر هندستها المعمارية والخوارزمية المحسنة، بالإضافة إلى مقارنات الأداء مع النماذج الأخرى، مرجعًا قيمًا ومرجعًا للباحثين والمطورين. نحن نتطلع إلى أن يتمكن Stable Diffusion 3 من لعب دور في المزيد من سيناريوهات التطبيق في المستقبل.