تُصدر تقنية Stability AI نموذجًا جديدًا من الجيل 3.5 من Stable Diffusion، وثلاثة إصدارات، وسرعة محسنة بشكل كبير

الكاتب：Eve Cole وقت التحديث：2024-11-27 20:36:01

علم محرر Downcodes أن Stability AI قد أصدرت مؤخرًا نموذج تحويل النص إلى صورة Stable Diffusion 3.5، والذي يتضمن ثلاثة إصدارات: Stable Diffusion 3.5 Large وStable Diffusion 3.5 Large Turbo وStable Diffusion 3.5 Medium، المصممة لتلبية احتياجات مستخدمين مختلفين، من المحترفين إلى المتحمسين العاديين. هذا التحديث هو استجابة Stability AI لأوجه القصور في الإصدارات السابقة ويهدف إلى تحسين قدرتها التنافسية والتنافس مع منصات مثل DALL-E وMidjourney من OpenAI. يحتوي النموذج الجديد على تحسينات كبيرة في جودة الصورة وسرعة الإنشاء وسهولة الاستخدام، ويقدم تقنية تطبيع مفتاح الاستعلام لتعزيز تخصيص النموذج واستجابته للمطالبات.

أطلقت Stability AI مؤخرًا أحدث نموذج للتعلم العميق لتحويل النص إلى صورة - Stable Diffusion3.5. يتضمن هذا الإصدار ثلاثة نماذج محسنة مفتوحة المصدر مصممة لتلبية احتياجات المستخدمين المختلفين، بما في ذلك الباحثين وعملاء المؤسسات والمتحمسين.

من بينها، يعد Stable Diffusion3.5Large أقوى طراز في السلسلة بأكملها، حيث تصل المعلمات إلى 8.1 مليار. يعد هذا الطراز مثاليًا للمستخدمين المحترفين نظرًا لجودة صورته الممتازة واستجابته العالية للمطالبات، كما أنه قادر على إنتاج صور عالية الجودة بدقة تصل إلى 1 ميجابكسل.

بالإضافة إلى ذلك، فإن Stable Diffusion3.5Large Turbo هو نسخة مبسطة من Stable Diffusion3.5Large. يعمل على تحسين السرعة بشكل كبير أثناء إنشاء صور عالية الجودة، ولا يستغرق الأمر سوى 4 خطوات لإكمال إنشاء الصور، وهو أكثر كفاءة من الإصدار السابق ومناسب للمستخدمين الذين يحتاجون إلى الإنشاء بسرعة.

نموذج جديد آخر هو Stable Diffusion3.5Medium، الذي يحتوي على 2.5 مليار معلمة. يستخدم النموذج بنية MMDiT-X وطريقة تدريب محسنة، وهو مصمم ليتم استخدامه "خارج الصندوق" ويعمل بسلاسة حتى على الأجهزة المخصصة للمستهلكين. فهو يحقق توازنًا جيدًا بين جودة توليد الصور وسهولة التخصيص، وينتج صورًا بدقة تتراوح من 0.25 إلى 2 ميجابكسل.

خلفية هذا الإطلاق هي أنه بعد فشل إصدار Stable Diffusion3Medium في يونيو في تلبية التوقعات، قررت Stability AI إطلاق حل أكثر تحويلاً. وقالت الشركة إنها تأمل في استعادة القدرة التنافسية في السوق من خلال هذا التحديث لمواجهة التحديات من منصات مثل DALL-E وMidjourney من OpenAI.

أحد الابتكارات التقنية المهمة للنموذج الجديد هو إدخال تقنية تطبيع مفتاح الاستعلام. يعمل هذا الابتكار على تحسين تخصيص النموذج والاستجابة للمطالبات، مما يسمح للمستخدمين بتحقيق نتائج أكثر اتساقًا مع المطالبات الواضحة، بالإضافة إلى تفسيرات أكثر ثراءً للصور عند استخدام المطالبات الأوسع.

سيتم إصدار سلسلة نماذج Stable Diffusion3.5 بموجب ترخيص مجتمع Stability AI، مما يسمح للمستخدمين باستخدامها مجانًا للاستخدام غير التجاري. وفي الوقت نفسه، يمكن أيضًا للكيانات التي يقل دخلها السنوي عن مليون دولار أمريكي استخدامها مجانًا، ويحتاج المستخدمون الذين لديهم أكثر من هذا الدخل إلى التقدم بطلب للحصول على ترخيص مؤسسة.

ستكون جميع النماذج وأوزانها المطلوبة للاستضافة الذاتية متاحة على واجهات برمجة التطبيقات الخاصة بـ Hugging Face and Stability AI. بالإضافة إلى ذلك، من المتوقع إطلاق وظائف ControlNets التي توفر خيارات متقدمة لتخصيص الصور في الأيام المقبلة.

المدخل الرسمي:

https://stability.ai/stable-image

ثلاثة إصدارات من مدخل الوجه المعانق:

https://huggingface.co/stabilityai/stable-diffusion-3.5-large

https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo

https://huggingface.co/stabilityai/stable-diffusion-3.5-medium

وبشكل عام، يمثل إطلاق سلسلة Stable Diffusion 3.5 تقدمًا مهمًا في تقنية تحويل النص إلى صورة، مما يوفر للمستخدمين المزيد من الخيارات وميزات أكثر قوة. يتطلع محرر Downcodes إلى ظهور المزيد من الميزات المبتكرة في المستقبل.