أحدث نموذج إنشاء الصور مفتوح المصدر من NVIDIA Sana، موجة في مجال إنشاء صور الذكاء الاصطناعي بحجمها الصغير وأدائها القوي. لدى Sana 60 مليون معلمة فقط، لكنها تستطيع إنشاء صور عالية الوضوح تصل إلى 4096×4096 بكسل وتحقيق سرعات أقل من الجيل الثاني على بطاقة رسوميات سعة 16 جيجابايت. ويرجع ذلك إلى التشفير التلقائي العميق المضغوط ومحول الانتشار الخطي، بالإضافة إلى تحسين ترميز النص واستراتيجيات الاستدلال. أدائها متميز بين النماذج المشابهة، حتى بالمقارنة مع النماذج ذات المعلمات الأكبر.
في الآونة الأخيرة، قامت NVIDIA بإصدار نموذج مفتوح المصدر لإنشاء الصور يسمى Sana. يحتوي هذا النموذج على 60 مليون معلمة فقط، مما يقلل بشكل كبير من عتبة التشغيل.
ومن المعلوم أن Sana يمكنها إنشاء صور بدقة 4096×4096 ويمكن تشغيلها على بطاقة رسومية بسعة 16 جيجابايت، ويمكنها إنشاء صور عالية الجودة بدقة 1024×1024 في أقل من ثانية واحدة.
قدم فريق البحث جهاز تشفير تلقائي للضغط العميق (DC-AE)، بالمقارنة مع أجهزة التشفير التلقائي التقليدية، تتمتع Sana بنسبة ضغط تصل إلى 32 مرة، مما يقلل بشكل كبير من عدد الملصقات المحتملة، وهو أمر مفيد لتوليد صور فائقة الدقة. مهم. ثانيًا، تستخدم Sana محول الانتشار الخطي (DiT) لاستبدال الانتباه التربيعي التقليدي بالانتباه الخطي، وبالتالي تقليل التعقيد إلى O (N)، وتحسين المعلومات المحلية من خلال قدرة التقاط العمق 3 × 3. يزيد هذا التصميم من زمن انتقال Sana بمقدار 1.7 مرة عند إنشاء صور بدقة 4K.
وفيما يتعلق بترميز النص، اختارت سانا نموذج Gemma، وهو نموذج لغة كبير خاص بوحدة فك التشفير، بدلاً من نموذج T5 التقليدي. تعمل جيما بشكل أفضل في فهم وتنفيذ التعليمات المعقدة، مما يعزز القدرة على محاذاة الصور والنصوص. بالإضافة إلى ذلك، تعمل Sana على تحسين استراتيجيات التدريب والاستدلال لتحسين اتساق النص والصورة عن طريق وضع العلامات التلقائية واختيار الأوصاف ذات درجات CLIP العالية. تعمل خوارزمية Flow-DPM-Solver المقترحة حديثًا على تقليل خطوات التفكير إلى 14-20 خطوة، مما يؤدي إلى تحسين الأداء بشكل ملحوظ.
فيما يتعلق بالأداء العام، تقدم Sana أداءً جيدًا في العديد من نماذج نشر النص إلى الصورة المتقدمة. بدقة 512 × 512، تتمتع Sana-0.6 بخمسة أضعاف إنتاجية PixArt-Σ وتعمل بشكل جيد من حيث جودة توليد الصور. بدقة 1024×1024، يتمتع Sana-0.6B أيضًا بمزايا كبيرة في النماذج التي تحتوي على أقل من 300 مليون معلمة.
لا يتمتع Sana-0.6B بأداء قوي فحسب، بل يمكنه أيضًا إنشاء صور بسرعة على وحدة معالجة الرسومات للكمبيوتر المحمول بسعة 16 جيجابايت، مما يساعد منشئي المحتوى على تحقيق أهدافهم الإبداعية بكفاءة. يُقال أن Sana0.6B يتنافس أيضًا مع Flux-12B من حيث الأداء. عدد المعلمات هو 1/20 فقط، لكن السرعة أسرع 100 مرة.
ومن المثير للاهتمام أن كلمات سانا السريعة تدعم اللغة الإنجليزية والصينية والرموز التعبيرية. يمكن للمستخدمين إدخال القصائد الصينية وإنشاء صور فنية تتعلق بها. بالإضافة إلى ذلك، تتمتع Sana أيضًا بدرجة معينة من الأمان عندما يقوم المستخدمون بإدخال كلمات غير لائقة، سيقوم النظام تلقائيًا باستبدالها بأنماط القلب الحمراء لتجنب إنشاء محتوى غير لائق.
على سبيل المثال، عندما تقوم AIbase بإدخال الكلمة السريعة "قطة تلعب في العشب والنجوم"، تكون سرعة التوليد سريعة جدًا، ويكون التأثير أيضًا جيدًا جدًا.
على سبيل المثال، بالنظر إلى الكلمة السريعة "شخص لطيف يأكل، بأسلوب الرسم بالحبر"، يمكنك أن ترى أن النموذج يمكنه التعرف على الرموز التعبيرية بدقة.
ومن الجدير بالذكر أن سناء حصلت على الدعم الرسمي لـ ComfyUI وهي مزودة بأداة التدريب Lora. وهذا يجعلها أكثر ملاءمة للمستخدمين لاستخدامها، كما تم تحسين التطبيق العملي لها بشكل كبير ويمكن للأصدقاء المهتمين تجربتها بأنفسهم.
مدخل المشروع: https://nv-sana.mit.edu/
تسليط الضوء على:
** توليد فعال **: تستطيع Sana إنشاء صور عالية الجودة بسرعة تصل إلى 4096 × 4096، وهي مناسبة للاستخدام على وحدات معالجة الرسومات المحمولة العادية.
**تصميم مبتكر**: يعمل جهاز التشفير التلقائي للضغط العميق ومحول الانتشار الخطي على تحسين سرعة التوليد وجودته بشكل كبير.
**أداء ممتاز**: تقدم Sana أداءً جيدًا في اختبارات متعددة، مع إنتاجية أعلى بكثير من النماذج المتقدمة الأخرى، مما يدعم إنشاء المحتوى بسرعة.
بشكل عام، تقدم Sana تجربة جديدة لتوليد الصور بتقنية الذكاء الاصطناعي للمستخدمين بفضل سرعة التوليد الفعالة وإخراج الصور عالي الجودة والاستخدام المريح، وهو أمر يستحق التطلع إلى تطويره في المستقبل.