لقد كان تحويل النص إلى صورة من الصور الواقعية عالية الدقة دائمًا مشكلة صعبة في مجال رؤية الكمبيوتر. على الرغم من أن طرق التوليد التقليدية مثل نماذج الانتشار ونماذج الانحدار الذاتي التحويلية يمكن أن تولد صورًا عالية الجودة، إلا أنها تواجه مشكلات مثل الاستهلاك الضخم لموارد الحوسبة وفقدان التفاصيل. يهدف إطار العمل الجديد "Infinity" الذي اقترحته ByteDance إلى حل هذه التحديات، فهو يعمل بشكل كبير على تحسين كفاءة التوليد وجودة الصورة من خلال وضع العلامات المبتكرة على مستوى البت ومصنفات المفردات اللانهائية.
في مجال توليد الصور، واجهت مهمة الصور عالية الدقة والواقعية دائمًا تحديات متعددة، خاصة في عملية تركيب النص إلى صورة. تعتمد الأساليب التوليدية التقليدية في الغالب على نماذج الانتشار وأطر الانحدار الذاتي للتحول (VAR).
وعلى الرغم من أن هذه النماذج قادرة على إنتاج صور عالية الجودة، إلا أنها تستهلك كميات كبيرة من موارد الحوسبة، مما يجعلها غير مرنة للتطبيقات في الوقت الفعلي. وفي الوقت نفسه، يكون نموذج VAR عرضة للأخطاء التراكمية عند معالجة العلامات المنفصلة، مما يؤدي إلى فقدان التفاصيل في الصورة التي تم إنشاؤها، وبالتالي التأثير على واقعية الصورة.
وللتغلب على أوجه القصور هذه، أطلق فريق البحث في ByteDance إطارًا جديدًا يسمى "Infinity"، والذي تم تصميمه لتحسين كفاءة وجودة تركيب النص إلى الصورة.
تحقق Infinity تمثيلًا أكثر دقة من خلال تقديم علامات على مستوى البت بدلاً من العلامات التقليدية على مستوى الفهرس، وبالتالي تقليل أخطاء القياس الكمي بشكل كبير وتحسين واقعية الصور التي تم إنشاؤها. بالإضافة إلى ذلك، يستخدم إطار العمل مُصنف المفردات اللانهائي (IVC) لتوسيع مفردات الرمز المميز إلى 2^64، مما يقلل بشكل كبير من متطلبات الذاكرة والحوسبة.
تتكون بنية Infinity بشكل أساسي من ثلاثة أجزاء: علامة كمية متعددة المقاييس على مستوى البت تقوم بتحويل ميزات الصورة إلى علامات ثنائية للحمل الحسابي؛ آلية التصحيح الذاتي التي تقدم تقلبات عشوائية في البتات أثناء عملية التدريب لتحسين قوة النموذج في مواجهة الأخطاء. استخدم فريق البحث مجموعات بيانات كبيرة مثل LAION وOpenImages للتدريب، وأحرز تقدمًا كبيرًا من خلال زيادة دقة الصورة تدريجيًا من 256×256 إلى 1024×102.
بعد التقييم، أظهرت Infinity أداءً ممتازًا في المؤشرات الرئيسية، حيث حصلت على درجة GenEval 0. وانخفضت مسافة بداية Fréchet (FID) إلى 3.48، مما يدل على تحسنها في سرعة التوليد وجودته. يمكن لـ Infinity إنشاء صور عالية الدقة تبلغ 1024×1024 خلال 0.8 ثانية، مما يدل على كفاءتها وموثوقيتها. الصور التي ينشئها النظام ليست فقط واقعية بصريًا وغنية بالتفاصيل، ولكنها أيضًا تستجيب بدقة لتعليمات النص المعقدة، مما يؤدي إلى درجات عالية من التفضيل البشري.
يمثل إطلاق Infinity معيارًا جديدًا في تركيب تحويل النص إلى صورة عالي الدقة، مما يدفع التطوير الإضافي للذكاء الاصطناعي التوليدي من خلال حل مشكلات قابلية التوسع طويلة الأمد وجودة التفاصيل من خلال تصميم مبتكر.
الورقة: https://arxiv.org/abs/2412.04431
أبرز النقاط:
** إطار Infinity المبتكر: ** يعمل إطار عمل Infinity الذي أطلقته Bytedance على تحسين كفاءة إنشاء الصور عالية الدقة بشكل كبير من خلال الترميز على مستوى البت ومصنفات المفردات غير المحدودة.
⚡ **أداء ممتاز:** تتفوق Infinity على النماذج الحالية في مؤشرات التقييم الرئيسية ويمكنها إنشاء صور عالية الجودة تبلغ 1024×1024 في 0.8 ثانية.
️ ** تفاصيل أصلية واستجابة: ** الصور التي تم إنشاؤها ليست واقعية بصريًا فحسب، بل تستجيب أيضًا بدقة للمطالبات النصية المعقدة، مما يُظهر درجات عالية من التفضيل البشري.
بشكل عام، يوفر إطار عمل Infinity حلاً فعالاً وعالي الجودة لإنشاء تحويل النص إلى صورة بدقة عالية، مما يحقق اختراقات كبيرة في السرعة وجودة الصورة والاستجابة لتعليمات النص المعقدة، مما يوفر منصة قوية للتطوير الإبداعي. لقد حقق الذكاء الاصطناعي إنجازًا جديدًا.