قام فريق تكنولوجيا التسويق في ByteDance بفتح المصدر لأحدث نموذج رسم بياني لـ Vincent Infinity، وقد حقق هذا النموذج اختراقات كبيرة في جودة توليد الصور وسرعة الاستدلال، متجاوزًا العديد من النماذج الرائدة في الصناعة، مثل Stable Diffusion 3 وHART وLlamaGen وآخرين. يكمن الابتكار الأساسي لنموذج Infinity في إطار الانحدار التلقائي الفريد من نوعه Bitwise Token والمفردات اللانهائية، مما يسمح للنموذج بالتقاط تفاصيل أدق للصور وتحسين الحد الأعلى لجودة وأداء الصور التي تم إنشاؤها بشكل كبير. ستقدم هذه المقالة بالتفصيل التفاصيل الفنية والأداء وحالة المصدر المفتوح لنموذج Infinity.
وفي مجال الذكاء الاصطناعي، أصبح نموذج Infinity، وهو أحدث إنجاز لفريق تكنولوجيا التسويق التجاري في ByteDance، هو الملك الجديد في مجال الرسوم البيانية الانحدارية الذاتية بأدائه الممتاز وتقنياته المبتكرة. لا يتفوق هذا النموذج الجديد مفتوح المصدر على Stable Diffusion3 في جودة توليد الصور فحسب، بل يُظهر أيضًا مزايا كبيرة في سرعة الاستدلال.
الابتكار الأساسي لنموذج Infinity هو اعتماد إطار عمل الانحدار الذاتي Bitwise Token الذي يعمل على تحسين قدرة النموذج بشكل كبير على اكتشاف الإشارات عالية التردد من خلال التنبؤ بـ "Bitwise Token" الدقيق المكون من +1 أو -1 في المرة التالية. مستوى الدقة في الالتقاط، مما يؤدي إلى الحصول على صور أكثر تفصيلاً. بالإضافة إلى ذلك، يقوم نموذج Infinity بتوسيع المفردات إلى ما لا نهاية، مما يعزز بشكل كبير مساحة تمثيل رمز الصورة وتحسين الحد الأعلى لأداء مخطط الانحدار الذاتي.
في مقارنة الأداء، كان أداء نموذج Infinity متميزًا بين طرق الانحدار الذاتي، متجاوزًا بكثير HART وLlamaGen وEmu3 وطرق أخرى، وهزم نموذج HART في التقييم البشري بمعدل فوز يقارب 90%. وفي الوقت نفسه، هزمت Infinity أيضًا نماذج انتشار SOTA مثل PixArt-Sigma وSD-XL وSD3-Meidum وما إلى ذلك بمعدلات فوز بلغت 75% و80% و65%، مما أثبت مزاياها بين النماذج ذات الحجم نفسه. .
ميزة رئيسية أخرى لنموذج Infinity هي خصائص القياس الجيدة. مع زيادة حجم النموذج واستثمار موارد التدريب، تنخفض خسارة مجموعة التحقق بشكل مطرد وتزداد دقة مجموعة التحقق بشكل مطرد. بالإضافة إلى ذلك، اقترحت Infinity أيضًا تقنية التصحيح الذاتي للبتات، والتي تعزز قدرة التصحيح الذاتي للنموذج وتخفف من مشكلة الخطأ التراكمي أثناء التفكير الانحداري الذاتي.
فيما يتعلق بسرعة الاستدلال، ترث Infinity ميزة سرعة VAR، حيث يستغرق نموذج 2B 0.8 ثانية فقط لإنشاء صورة بدقة 1024 × 1024، وهي أسرع بثلاث مرات من SD3-Medium من نفس الحجم وأسرع 14 مرة من 12B Flux Dev. . يعد الطراز 8B أسرع بـ 7 مرات من SD3.5 من نفس الحجم. ويستغرق الطراز 20B 3 ثوانٍ لإنشاء صورة بدقة 1024 × 1024، وهو أسرع بنحو 4 مرات من الطراز 12B Flux Dev.
في الوقت الحاضر، تم إطلاق كود التدريب والاستدلال والعرض التوضيحي وأوزان النموذج لنموذج Infinity في مستودع GitHub، كما يتم توفير تجربة موقع الويب لتسهيل المستخدمين على تجربة تأثير النموذج وتقييمه.
صفحة المشروع: https://foundationvision.github.io/infinity.project/
بشكل عام، حقق نموذج Infinity اختراقات جديدة في مجال الرسوم البيانية الفينسنتية ذات الانحدار الذاتي بفضل هندستها التقنية المتقدمة وأدائها الممتاز وأساليبها المفتوحة المصدر الملائمة، الأمر الذي يستحق الاهتمام ومزيدًا من البحث. إن سرعة الاستدلال الفعالة وإمكانيات توليد الصور عالية الجودة تمنحها إمكانات كبيرة في التطبيقات العملية.