في السنوات الأخيرة ، تتغير تقنيات توليد صور الذكاء الاصطناعي مع كل يوم يمر ، لكن تكاليف الحوسبة المرتفعة قد حدقت شعبيتها. تقدم هذه المقالة نوعًا جديدًا من النصح يسمى SANA إلى إطار الصورة. يمكن لـ SANA توليد صور عالية التعريف بدقة 4096 × 4096 على وحدة معالجة الرسومات من أجهزة الكمبيوتر المحمولة العادية ، وسرعتها تتجاوز التكنولوجيا الحالية. إن الابتكار الأساسي للإطار هو مزيج من الانضغاط الذاتي للضغط العميق ، و DIT الخطي ، وشرف نص فك التشفير ، واستراتيجيات التدريب والأخذ في الاعتبار الفعالة.
تتطور تقنية توليد صور الذكاء الاصطناعي بسرعة ، لكن النموذج يزداد حجمًا وأكبر. الآن ، يولد نوع جديد من النص "Sana" لإطار الصور. من الكمبيوتر المحمول.
يشمل تصميم سانا الأساسي:
الشفرات الذاتية للضغط العميق: يختلف عن الصورة التقليدية ذاتية التمسك بـ 8 أضعاف فقط التي يمكن أن يضغط عليها الصورة التقليدية للذات بفعالية 32 مرة ، مما يقلل بشكل فعال من الرموز المحتملة. هذا ضروري للتدريب العالي الكفاءة وتوليد صور دقة عالية الدقة.
DIT الخطي: تحل SANA محل جميع آليات الاهتمام التقليدية في DIT مع الاهتمام الخطي ، مما يحسن كفاءة المعالجة للصور عالية الدقة دون التضحية بالجودة. الاهتمام الخطي يقلل من تعقيد الحساب من O (n²) إلى O (n). بالإضافة إلى ذلك ، تستخدم SANA أيضًا MIX-FFN لدمج الالتفاف العميق 3 × 3 في MLP لتجميع المعلومات المحلية من الرموز ، ولا يلزم ترميز الموقف.
تشفير نص Deconder: تستخدم Sana أحدث وحدة تشفير LLM الصغيرة (مثل GEMMA) كشرف نص ليحل محل المقطع الشائع أو T5. تعزز هذه الطريقة فهم ومطالبات النموذج ، ويحسن محاذاة نص الصورة من خلال التعليمات الاصطناعية المعقدة وتعلم السياق.
استراتيجية التدريب والأخذ في الاعتبار الفعالة: تستخدم SANA SANA-Solver Flow-DPM لتقليل خطوات أخذ العينات ، واستخدام طرق وضع العلامات والاختيار الفعالة لتسريع تقارب النموذج. نموذج SANA-0.6B أصغر 20 مرة من نموذج الانتشار الكبير (مثل FLUX-12B) ، وهو أسرع أكثر من 100 مرة.
إن ابتكار SANA هو أنه قلل بشكل كبير من تأخير التفكير من خلال الطرق التالية:
الخوارزمية والتحسين التعاوني للنظام: من خلال طرق التحسين المتعددة ، قامت SANA باختصار وقت توليد صور 4096 × 4096 من 469 ثانية إلى 9.6 ثانية ، وأسرع 106 مرة من تدفق النموذج الأكثر تقدمًا حاليًا.
ضاغط عميق من المشفر: تستخدم Sana بنية AE-F32C32P1 لضغط الصورة 32 مرة ، مما يقلل بشكل كبير من عدد الرموز المميزة ويسرع التدريب والتفكير.
الاهتمام الخطي: استخدم الاهتمام الخطي لاستبدال آلية الالتحاق الذاتي التقليدية ، مما يحسن كفاءة المعالجة للصور عالية الدقة.
تسارع Triton: استخدم Triton لتدمير نواة العملية إلى الأمام والخلف لوحدة الاهتمام الخطية لزيادة تسريع التدريب والتفكير.
Slow-DPM Solver: قلل من خطوات أخذ عينات الاستدلال من 28-50 إلى 14-20 خطوة ، وفي نفس الوقت تحقق نتائج أفضل.
أداء سانا جيد جدا. عند دقة 1024 × 1024 ، كانت معلمات نموذج SANA-0.6b فقط 590 مليون ، ولكن الأداء الكلي وصل إلى 0.64geneval ، وهو ليس أدنى من النماذج الكبيرة. علاوة على ذلك ، يمكن نشر SANA-0.6B على وحدة معالجة الرسومات المحمول التي تبلغ مساحتها 16 جيجا بايت ، والتي تستغرق أقل من ثانية واحدة فقط لتوليد دقة 1024 × 1024. بالنسبة لصور 4K ، فإن إنتاجية SANA-0.6B أسرع أكثر من 100 مرة من الطريقة الأكثر تقدماً (FLUX). لم تُحقق سانا اختراقًا في السرعة فحسب ، بل لديها أيضًا قدرة تنافسية من حيث جودة الصورة.
بالإضافة إلى ذلك ، لدى SANA أيضًا قدرة قوية على الترحيل بلغة عينة صفر. حتى لو تم تدريب البيانات الإنجليزية فقط ، يمكن لـ Sana أن تفهم مطالبات الصينية والرموز وإنشاء الصور المقابلة.
أدى ظهور SANA إلى تقليل العتبة لتوليد صور عالية الجودة ، مما يوفر أدوات إنشاء محتوى قوية للمهنيين والمستخدمين العاديين. سيتم إصدار رمز Sana ونموذجه علنًا.
عنوان الخبرة: https://nv-sana.mit.edu/
عنوان الأطروحة: https://arxiv.org/pdf/2410.10629
Github: https: //github.com/nvlabs/sana
الكل في الكل ، حققت SANA تقدمًا كبيرًا في مجال توليد الصور من خلال خوارزميةها الفعالة وتصميم النظام الأمثل ، مما جلب المستخدمين الراحة غير المستقرة وتجربة توليد الصور عالية الجودة. تساهم خصائصها مفتوحة المصدر أيضًا في قوى مهمة في تطوير تقنية توليد صور الذكاء الاصطناعي.