قامت جامعة بكين ومختبر شنغهاي للذكاء الاصطناعي وجامعة نانيانغ التكنولوجية بتطوير نظام ذكاء اصطناعي مبتكر يسمى DiffSensei يمكنه تحويل القصص المكتوبة تلقائيًا إلى أسلوب كوميدي. يستخدم النظام نماذج الانتشار ونماذج اللغة واسعة النطاق للتعامل مع العناصر المرئية والسردية في إنشاء القصص المصورة، ويحقق إنشاء القصص المصورة في ثلاث خطوات (إنشاء تخطيط الصفحة، ورسم الشخصيات، وإضافة نص الحوار). وللتحقق من وظائفه، قام فريق البحث أيضًا بإنشاء قصة مصورة خيالية عن رائد في مجال الذكاء الاصطناعي. يؤدي DiffSensei أداءً جيدًا في الحفاظ على الاتساق في مظهر الشخصية والتحكم في تخطيط الصفحة، مما يدل على الإمكانات الكبيرة للذكاء الاصطناعي في إنشاء القصص المصورة، ولكنه يواجه أيضًا بعض التحديات، مثل الأخطاء التي قد تحدث عندما لا تكون الصور المرجعية للشخصية واضحة بما فيه الكفاية.
تم تدريب المشروع باستخدام مجموعة بيانات تسمى MangaZero، والتي تحتوي على أكثر من 43000 صفحة هزلية و427000 لوحة فردية من 48 سلسلة هزلية مختلفة، كل منها مشروحة بالتفصيل. يستخدم DiffSensei نماذج متعددة الوسائط وتقنية LoRA لضمان احتفاظ الشخصيات الكوميدية بمظهر ثابت على كل لوحة. على الرغم من بعض التحديات، مثل الأخطاء التي يمكن أن تحدث عندما لا تكون الصور المرجعية للشخصيات واضحة بما فيه الكفاية، والفن الناتج الذي يمكن أن يبدو لطيفًا في غياب مراجع واضحة للشخصيات، فإن DiffSensei يوفر للفنانين والناشرين والمبدعين أداة جديدة قوية يعد المستقبل بتبسيط عملية الإنتاج الهزلي إلى حد كبير.
الصورة: وو وآخرون.
الصورة: وو وآخرون.
كيف يعمل ديفسنسي
يستخدم DiffSensei نماذج متعددة الوسائط وتقنية LoRA للتأكد من أن الشخصيات في القصص المصورة تحافظ على مظهر ثابت في كل لوحة. يقوم النظام بتنفيذ إنشاء القصص المصورة في ثلاث خطوات: أولاً إنشاء تخطيط الصفحة، ثم رسم الأحرف، وأخيرًا إضافة نص الحوار.
لتدريب DiffSensei، قام الباحثون ببناء مجموعة بيانات تسمى MangaZero. تحتوي مجموعة البيانات على أكثر من 43000 صفحة من القصص المصورة و427000 لوحة فردية من 48 سلسلة هزلية مختلفة. يتم شرح كل لوحة بالتفصيل، وتسجيل مواضع الشخصيات ومواضع الحوار، وهو أمر ضروري للتشغيل السلس للنظام.
الصورة: وو وآخرون.
الإمكانيات والتحديات المستقبلية
على الرغم من أن DiffSensei يظهر إمكانات كبيرة، إلا أن النظام لا يزال يواجه بعض التحديات. في الوقت الحالي، يمكن للنظام أن يرتكب أخطاء عندما لا تكون الصورة المرجعية للشخصية واضحة بدرجة كافية، وفي بعض الأحيان يتم دمج الأحرف المتشابهة عن طريق الخطأ. علاوة على ذلك، بدون إشارات شخصية واضحة، قد يبدو الفن الناتج لطيفًا ويفشل في تمثيل أسلوب فكاهي محدد بشكل مثالي.
يعتقد الباحثون أن DiffSensei يمكنه تبسيط عملية الإنتاج الهزلي بشكل كبير في المستقبل. تمنح هذه التقنية الفنانين والناشرين والمبدعين أداة جديدة تتيح لهم إنشاء رسوم كاريكاتورية مخصصة بسهولة مع الحفاظ على التحكم الدقيق في الشخصيات وتخطيط الصفحة.
بشكل عام، يشير ظهور DiffSensei إلى أن الذكاء الاصطناعي قد حقق تقدمًا كبيرًا في مجال إنشاء القصص المصورة، مما يوفر إمكانيات جديدة لإنشاء القصص المصورة. وعلى الرغم من أنه لا تزال هناك بعض التحديات التي يتعين التغلب عليها، إلا أن إمكانات التنمية المستقبلية هائلة وتستحق التطلع إليها.