تم إحراز تقدم كبير في مجال توليد الصور ، ولكن قيود النماذج الحالية أعاقت وحدة نماذج الرؤية اللغوية. تقدم هذه المقالة نموذجًا جديدًا من نص إلى صورة يسمى Meissonic ، والذي يستخدم تقنية نمذجة الصور المقنعة غير المقلدة (MIM) لتحقيق نماذج الانتشار الحديثة (مثل SDXL) مع 1 مليار معلمة مطلوبة. جودة توليد صور كبيرة. تعمل Meissonic على تحسين أداء MIM والكفاءة بشكل كبير من خلال الابتكار المعماري ، واستراتيجيات ترميز الموقع ، وظروف أخذ العينات المحسنة ، ويحقق توليد صور دقة 1024 × 1024 على وحدات معالجة الرسومات المستهلك.
في قلب Meissonic ، توجد مجموعة من الابتكارات المعمارية ، واستراتيجيات ترميز الموضع المتقدمة ، وظروف أخذ العينات المحسنة التي تعمل على تحسين أداء MIM والكفاءة بشكل كبير. بالإضافة إلى ذلك ، تستخدم Meissonic أيضًا بيانات تدريب عالية الجودة ، ويندمج الشروط الصغيرة القائمة على درجات التفضيل البشري ، وتبني طبقات ضغط الميزات لزيادة تعزيز الدقة ودقة الصورة.
على عكس نماذج الانتشار الكبيرة مثل SDXL و Deepfloyd-XL ، فإن Meissonic لديها 1 مليار فقط من المعلمة ، ولكنها يمكن أن تولد صورًا عالية الجودة بدقة 1024 × 1024 ويمكن أن تعمل على وحدات معالجة الرسومات على مستوى المستهلك مع 8 جيجابايت فقط من ذاكرة الفيديو دون أي نموذج إضافي تحسين. بالإضافة إلى ذلك ، يجعل Meissonic من السهل إنشاء صور ذات خلفيات ملونة صلبة ، والتي تتطلب غالبًا صياغة نماذج أو تعديل الضوضاء في نماذج الانتشار.
لتحقيق تدريب فعال ، يتم تقسيم عملية تدريب Meissonic إلى أربع مراحل مصممة بعناية:
المرحلة الأولى: فهم المفاهيم الأساسية من البيانات الضخمة. تستخدم Meissonic مجموعة بيانات Laion-2B المصفاة للتدريب بدقة 256 × 256 لتعلم المفاهيم الأساسية.
المرحلة 2: محاذاة النص والصور مع مطالبات طويلة. تم تحسين دقة التدريب إلى 512 × 512 ، ويتم استخدام أزواج نص الصورة الاصطناعية عالية الجودة ومجموعات البيانات الداخلية لتحسين قدرة النموذج على فهم الإشارات الوصفية الطويلة.
المرحلة 3: ضغط الميزة الرئيسية لتحقيق توليد دقة أعلى. من خلال إدخال طبقات ضغط الميزات ، يمكن للميسونيك أن تنتقل بسلاسة من توليد 512 × 512 إلى 1024 × 1024 وتدريبه مع أزواج مختارة من نص الصورة عالي الدقة عالي الجودة.
المرحلة 4: تحسين توليد الصور الجمالية عالية الدقة. في هذه المرحلة ، يستخدم النموذج معدل تعليمي أصغر لضبطه ويضيف درجات التفضيل البشري كشروط دقيقة لتعزيز أداء النموذج في توليد صور عالية الجودة.
يوضح Meissonic الأداء والكفاءة الفائقين من خلال مجموعة من المقاييس الكمية والنوعية ، بما في ذلك HPS ، و MPS ، والمعايير الجنسية وتقييم GPT4O. بالمقارنة مع DALL-E2 و SDXL ، حققت Meissonic أداءًا تنافسيًا في كل من الأداء البشري ومحاذاة النص ، مع إظهار كفاءته أيضًا.
بالإضافة إلى ذلك ، كان أداء Meissonic جيدًا في تحرير صورة إلى صورة صفرية. على مجموعة بيانات EMU-EDIT ، حققت Meissonic نتائج قيادة في سبع عمليات مختلفة ، بما في ذلك تغييرات الخلفية ، وتغييرات محتوى الصورة ، وتغييرات النمط ، وإزالة الكائنات ، وإضافات الكائن للتدريب أو ضبط البيانات الخاصة بتحرير الصور أو مجموعات التعليمات.
عنوان المشروع: https://github.com/viiika/meissonic
عنوان الورق: https://arxiv.org/pdf/2410.08261
باختصار ، حققت نماذج Meissonic اختراقات كبيرة في جودة الكفاءة وجودة توليد الصور ، مما يوفر اتجاهات جديدة لتطوير نماذج رؤية اللغة المستقبلية. تتيح ميزاتها الخفيفة الوزن تشغيلها على أجهزة المستهلك وإظهار قدراتها القوية في تحرير الصور الصفري ، مع آفاق تطبيق واسعة.