سيأخذك محرر Downcodes للتعرف على Meissonic، وهو نموذج لتحويل النص إلى صورة يحتوي على مليار معلمة فقط يمكنها إنشاء صور عالية الوضوح بدقة 1024×1024. إنه يخترق القيود المفروضة على النماذج مثل Stable Diffusion ويرفع تقنية نمذجة صورة القناع غير التلقائية (MIM) إلى مستوى جديد، حيث يمكن مقارنة أدائها وكفاءتها بنماذج الانتشار الأعلى مثل SDXL. يكمن ابتكار Meissonic في تصميمها المعماري الفريد، وإستراتيجية التشفير الموضعي المتقدمة، وظروف أخذ العينات المحسنة، والتي تمكنها من العمل على وحدات معالجة الرسومات المخصصة للمستهلك دون تحسين إضافي. والأكثر إثارة للدهشة هو أنه يمكنه بسهولة إنشاء صور بخلفيات ذات ألوان ثابتة، والتي تتطلب عادةً تعديلات معقدة في نماذج الانتشار.
يكمن جوهر Meissonic في سلسلة من الابتكارات المعمارية واستراتيجيات تشفير الموضع المتقدمة وظروف أخذ العينات المحسنة، مما يؤدي إلى تحسين أداء وكفاءة MIM بشكل كبير. بالإضافة إلى ذلك، تستفيد Meissonic من بيانات التدريب عالية الجودة، وتدمج التكييف الدقيق بناءً على درجات التفضيل البشري، وتستخدم طبقات ضغط الميزات لزيادة تحسين دقة الصورة ودقتها.
على عكس نماذج الانتشار الكبيرة مثل SDXL وDeepFloyd-XL، تحتوي Meissonic على مليار معلمة فقط، ولكن يمكنها إنشاء صور عالية الجودة بدقة 1024×1024، ويمكن تشغيلها على وحدات معالجة الرسومات على مستوى المستهلك مع ذاكرة فيديو بسعة 8 جيجابايت فقط دون أي نموذج إضافي. تحسين. بالإضافة إلى ذلك، يمكن لـ Meissonic بسهولة إنشاء صور بخلفيات ذات ألوان ثابتة، والتي غالبًا ما تتطلب في نماذج الانتشار ضبطًا دقيقًا للنموذج أو تعديلات إزاحة الضوضاء.
من أجل تحقيق التدريب الفعال، يتم تقسيم عملية التدريب في Meissonic إلى أربع مراحل مصممة بعناية:
المرحلة الأولى: فهم المفاهيم الأساسية من البيانات الضخمة. تستخدم Meissonic مجموعة بيانات LAION-2B التي تمت تصفيتها للتدريب بدقة 256 × 256 لتعلم المفاهيم الأساسية.
المرحلة 2: محاذاة النص والصور باستخدام النصائح الطويلة. تمت زيادة دقة التدريب إلى 512 × 512، ويتم استخدام أزواج الصور والنصوص الاصطناعية عالية الجودة ومجموعات البيانات الداخلية لتحسين قدرة النموذج على فهم الإشارات الوصفية الطويلة.
المرحلة 3: ضغط الميزة الرئيسية لتحقيق توليد دقة أعلى. من خلال تقديم طبقة ضغط مميزة، يمكن لـ Meissonic الانتقال بسلاسة من جيل 512×512 إلى جيل 1024×1024 والتدريب مع مجموعة مختارة من أزواج الصور والنصوص عالية الجودة وعالية الدقة.
المرحلة 4: تحسين توليد الصور الجمالية عالية الدقة. في هذه المرحلة، يتم ضبط النموذج باستخدام معدل تعلم أصغر وتضاف درجات التفضيل البشري كشروط دقيقة لتعزيز أداء النموذج في توليد صور عالية الجودة.
تُظهر Meissonic أداءً وكفاءة فائقين عبر مجموعة من المقاييس الكمية والنوعية، بما في ذلك معايير HPS وMPS ومعايير GenEval وتقييمات GPT4o. بالمقارنة مع DALL-E2 وSDXL، تحقق Meissonic أداءً تنافسيًا في كل من الأداء البشري ومحاذاة النص، مع إظهار كفاءتها العالية أيضًا.
بالإضافة إلى ذلك، تتفوق شركة Meissonic في تحرير الصور بدون عينة. في مجموعة بيانات EMU-Edit، حققت Meissonic نتائج رائدة في سبع عمليات مختلفة، بما في ذلك تغيير الخلفية، وتغيير محتوى الصورة، وتغيير النمط، وإزالة الكائن، وإضافة الكائن، والتعديل المحلي، وتغيير اللون/الملمس، وكلها لا تتطلب التدريب أو الغرامة. -ضبط البيانات الخاصة بتحرير الصور أو مجموعات التعليمات.
عنوان المشروع: https://github.com/viiika/Meissonic
عنوان الورقة: https://arxiv.org/pdf/2410.08261
بفضل كفاءتها وأدائها العالي، توفر Meissonic إمكانيات جديدة في مجال توليد الصور. يسهل تصميمه خفيف الوزن استخدامه من قبل المستخدمين الشاملين ويوفر أيضًا أفكارًا جديدة لاتجاهات البحث المستقبلية. يمكن للأصدقاء المهتمين زيارة عنوان المشروع وعنوان الأطروحة لمزيد من المعلومات.