يطلق Llamagen ، وهو نموذج لتوليد الصور التلقائي الذي طورته جامعة هونغ كونغ و Bytedance ، ثورة في مجال توليد الصور. باعتباره عملًا مبتكرًا يستند إلى بنية Llama ، فإنه لا يخترق فقط حدود نموذج الانتشار التقليدي في التكنولوجيا ، ولكنه يثير أيضًا استجابات متحمسة في مجتمع المصدر المفتوح.
في معايير اختبار ImageNet ، تجاوزت Llamagen نماذج الانتشار السائدة مثل LDM و DIT مع الأداء الممتاز. من خلال إعادة تدريب Tokenizer على الصورة ، حقق Llamagen مزايا كبيرة على مجموعات بيانات ImageNet و Coco ، وقد تجاوز أدائها نماذج معروفة مثل Vqgan و Vit-VQgan و Maskgi.
تم بناء نجاح Llamagen على ثلاثة أعمدة تقنية أساسية: ضغط/كمية متقدمة ، نموذج توليد الصور القابل للتطوير ، وبيانات التدريب عالية الجودة التي يتم عرضها بعناية. اعتمد فريق البحث بنية CNN مماثلة لـ VQ-GAN لتحويل الصور المستمرة إلى رموز منفصلة من خلال استراتيجية تدريب على مرحلتين ، تم تحسين الجودة المرئية ودقة الصور بشكل كبير.
في المرحلة الأولى من التدريب ، تدرب Llamagen على مجموعة فرعية 50 مترًا من Laion-Coco بدقة صورة تبلغ 256 × 256. ضمن فريق البحث جودة بيانات التدريب من خلال معايير الفحص الصارمة ، بما في ذلك عنوان URL الفعال للصور ، والنتيجة الجمالية ، ونقاط العلامة المائية ، إلخ. المرحلة الثانية هي صياغة صور داخلية عالية الجودة عالية الجودة من 10 ملايين مقياس ، مما يزيد من دقة الصورة إلى 512 × 512 ، مما يزيد من تأثير التوليد.
الميزة الأساسية لـ Llamagen هي Tokenizer الممتازة الخاصة بها وقابلية التوسع في بنية Llama. في اختبارات التوليد الفعلي ، أظهر Llamagen قدرة تنافسية قوية في المؤشرات الرئيسية مثل FID ، هي الدقة والاستدعاء. بالمقارنة مع نموذج الانحدار التلقائي السابق ، قام Llamagen بأداء ممتاز على جميع أوامر المعلمات ، ووضع معيارًا جديدًا لمجال توليد الصور.
على الرغم من أن Llamagen حقق نتائج رائعة ، قال فريق البحث إن هذه مجرد بداية لمرحلة الانتشار المستقر V1. ستشمل اتجاهات التطوير المستقبلية دعم دقة أعلى ، ونسبة تزيد عن العرض إلى الارتفاع ، وإمكانية التحكم في أقوى ، ومجالات جديدة مثل توليد الفيديو. تشير هذه الخطط إلى أن Llamagen سيستمر في قيادة الابتكار في تقنية توليد الصور في مجال أوسع.
في الوقت الحاضر ، تم فتح Llamagen للتجربة عبر الإنترنت ، ويمكن للمستخدمين تجربة هذه التكنولوجيا الثورية شخصيًا من خلال مساحة Llamagen على وجه المعانقة. في الوقت نفسه ، يوفر الإصدار المفتوح المصدر من Llamagen أيضًا منصة للمطورين والباحثين العالميين للمشاركة والمساهمة ، وتشجيع بشكل مشترك لتقدم تقنية توليد الصور. عنوان المشروع وعنوان الخبرة عبر الإنترنت هما: https://top.aibase.com/tool/llamagen و https://huggingface.co/spaces/foundationVision/llamagen ، على التوالي.