أصبحت النماذج التوليدية متعددة الوسائط محط اهتمام في مجال الذكاء الاصطناعي، بهدف دمج البيانات المرئية والنصية لإنشاء أنظمة قوية متعددة المهام. ومع ذلك، فإن التقدم في نماذج الانحدار الذاتي (AR) في مجال توليد الصور يتخلف عن نماذج الانتشار. ستقدم هذه المقالة Lumina-mGPT، وهو نموذج واقع معزز متقدم تم تطويره بواسطة باحثين من مختبر شنغهاي للذكاء الاصطناعي والجامعة الصينية في هونغ كونغ. ويهدف إلى التغلب على القيود المفروضة على نماذج الواقع المعزز الحالية من حيث جودة الصورة ومرونة الدقة والتعددية. إنجاز المهام.
تقود النماذج التوليدية متعددة الوسائط أحدث الاتجاهات في الذكاء الاصطناعي، مع التركيز على دمج البيانات المرئية والنصية لإنشاء أنظمة يمكنها إكمال مجموعة متنوعة من المهام. تتراوح هذه المهام من إنشاء صور عالية التفاصيل بناءً على أوصاف النص إلى الفهم والتفكير عبر أنواع البيانات، مما يؤدي إلى ولادة أنظمة ذكاء اصطناعي أكثر تفاعلية وذكية تدمج الرؤية واللغة بسلاسة.
يتمثل التحدي الرئيسي في هذا المجال في تطوير نماذج الانحدار الذاتي (AR) القادرة على توليد صور واقعية بناءً على الأوصاف النصية. على الرغم من أن نماذج الانتشار حققت تقدمًا كبيرًا في هذا المجال، إلا أن أداء نماذج الانحدار الذاتي قد تأخر، خاصة من حيث جودة الصورة ومرونة الدقة والقدرة على التعامل مع مجموعة متنوعة من المهام البصرية. وقد دفعت هذه الفجوة الباحثين إلى البحث عن طرق مبتكرة لتحسين قدرات نماذج الواقع المعزز.
في الوقت الحالي، يشغل مجال تحويل النص إلى صورة في الغالب نماذج الانتشار، التي تتفوق في إنشاء صور عالية الجودة وجذابة بصريًا. ومع ذلك، فإن نماذج الواقع المعزز مثل LlamaGen وParti تقصر في هذا الجانب. غالبًا ما يعتمدون على بنيات معقدة للتشفير وفك التشفير ويمكنهم في كثير من الأحيان إنتاج صور ذات دقة ثابتة فقط. وهذا القيد يقلل بشكل كبير من مرونتها وفعاليتها في توليد مخرجات متنوعة وعالية الدقة.
ولكسر هذا الاختناق، أطلق باحثون من مختبر شنغهاي للذكاء الاصطناعي والجامعة الصينية في هونغ كونغ Lumina-mGPT، وهو نموذج واقع معزز متقدم مصمم للتغلب على هذه القيود. يعتمد Lumina-mGPT على بنية محولات وحدة فك التشفير فقط ويعتمد طريقة التدريب المسبق التوليدي متعدد الوسائط (mGPT). يدمج هذا النموذج مهام الرؤية واللغة في إطار موحد، بهدف تحقيق نفس المستوى من توليد الصور الواقعية مثل نموذج الانتشار، مع الحفاظ على بساطة طريقة الواقع المعزز وقابليتها للتوسع.
تتخذ Lumina-mGPT نهجًا شاملاً لتعزيز قدرات توليد الصور، مع استراتيجية الضبط الدقيق التدريجي الخاضع للإشراف (FP-SFT) في جوهرها. تقوم هذه الإستراتيجية بتدريب النموذج تدريجيًا على إنشاء صور عالية الدقة من دقة منخفضة، وتعلم المفاهيم المرئية العامة أولاً بدقة أقل ثم تقديم تفاصيل أكثر تعقيدًا وعالية الدقة تدريجيًا. بالإضافة إلى ذلك، يقدم النموذج نظامًا مبتكرًا لتمثيل الصور لا لبس فيه يزيل الغموض المرتبط بدقة الصور المتغيرة ونسب العرض إلى الارتفاع من خلال تقديم مؤشرات محددة للارتفاع والعرض وعلامات نهاية الخط.
من حيث الأداء، يتفوق Lumina-mGPT بشكل كبير على نماذج الواقع المعزز السابقة في إنتاج صور واقعية. إنه قادر على إنشاء صور عالية الدقة تبلغ 1024 × 1024 بكسل، غنية بالتفاصيل، ومتسقة للغاية مع المطالبات النصية المقدمة. أفاد الباحثون أن Lumina-mGPT لا يتطلب سوى 10 ملايين زوج من الصور والنص للتدريب، وهو أقل بكثير من 5 ملايين زوج من الصور والنصوص التي يتطلبها LlamaGen. على الرغم من صغر حجم مجموعة البيانات، فإن Lumina-mGPT يتفوق على المنافسين في جودة الصورة والاتساق البصري. بالإضافة إلى ذلك، يدعم النموذج مجموعة متنوعة من المهام مثل الإجابة على الأسئلة المرئية، والتعليقات التوضيحية الكثيفة، وتوليد الصور التي يمكن التحكم فيها، مما يوضح مرونته باعتباره عامًا متعدد الوسائط.
تعمل هندستها المرنة والقابلة للتطوير على تعزيز قدرة Lumina-mGPT على إنتاج صور متنوعة وعالية الجودة. يستخدم هذا النموذج تقنيات فك التشفير المتقدمة مثل التوجيه الخالي من المصنف (CFG)، والذي يلعب دورًا مهمًا في تحسين جودة الصور المولدة. على سبيل المثال، من خلال ضبط المعلمات مثل درجة الحرارة وقيمة أعلى k، يمكن لـ Lumina-mGPT التحكم في تفاصيل الصور التي تم إنشاؤها وتنوعها، مما يساعد على تقليل التأثيرات المرئية وتحسين الجمال العام.
يمثل Lumina-mGPT تقدمًا كبيرًا في مجال توليد الصور ذات الانحدار الذاتي. نجح هذا النموذج، الذي طوره باحثون من مختبر شنغهاي للذكاء الاصطناعي والجامعة الصينية في هونغ كونغ، في سد الفجوة بين نموذج الواقع المعزز ونموذج الانتشار، مما يوفر أداة جديدة قوية لتوليد صور واقعية من النص. تُظهر أساليبها المبتكرة في التدريب المسبق متعدد الوسائط والضبط الدقيق المرن القدرات التحويلية المحتملة لنماذج الواقع المعزز وتبشر بميلاد أنظمة ذكاء اصطناعي أكثر تعقيدًا وتنوعًا في المستقبل.
عنوان المشروع: https://top.aibase.com/tool/lumina-mgpt
عنوان التجربة عبر الإنترنت: https://106.14.2.150:10020/
بشكل عام، جلب ظهور Lumina-mGPT إمكانيات جديدة إلى مجال توليد الصور ذاتي الانحدار، كما أن أسلوب التدريب الفعال وتأثير التوليد الممتاز الخاص به يستحق الاهتمام. وفي المستقبل، يمكننا أن نتطلع إلى المزيد من التطبيقات المبتكرة القائمة على تقنيات مماثلة لتعزيز التطوير المستمر في مجال الذكاء الاصطناعي.