أصدرت شركة Apple مؤخرًا طريقة جديدة لتوليد الصور والفيديو تسمى نماذج نشر ماتريوشكا (MDM). ويطلق على هذه التقنية المتقدمة اسم "نموذج نشر ماتريوشكا". ويكمن جوهرها في دمج الهياكل الصغيرة داخل الهياكل الكبيرة دمية الماتريوشكا الروسية. سيمنحك محرر Downcodes فهمًا متعمقًا لابتكار هذه التكنولوجيا وتأثيرها الثوري في مجال إنشاء صور الذكاء الاصطناعي.
في الآونة الأخيرة، أظهرت شركة التكنولوجيا العملاقة Apple مرة أخرى قدراتها القوية في مجال الابتكار التكنولوجي وأطلقت طريقة جديدة لتوليد الصور والفيديو تسمى نماذج نشر ماتريوشكا (MDM). وتسمى هذه التكنولوجيا المتقدمة بشكل واضح نموذج نشر ماتريوشكا.
يأتي اسم MDM من دمى ماتريوشكا الروسية. هذا الاسم الذكي ليس مليئًا بالمرح فحسب، بل يعكس أيضًا مفهومه الفني الأساسي - وهو تعشيش الهياكل الصغيرة داخل الهياكل الكبيرة. تمامًا مثلما تخفي كل دمية تعشيش دمية تعشيش أصغر ولكن بنفس القدر من الدقة، فإن MDM قادر على معالجة الصور بدقة مختلفة في وقت واحد، مما يحقق توليدًا سلسًا بدءًا من الرسومات منخفضة الوضوح وحتى التفاصيل عالية الوضوح.
يكمن جمال هذا النهج المبتكر في قدرته على التعامل مع معالجة الصور بدقة متعددة في نفس الوقت. تخيل أن هناك مجموعة من الرسامين ذوي المهارات العالية، يركز كل منهم على منطقة مختلفة من اللوحة، ولكنهم يعملون معًا لإنشاء قطعة فنية جميلة. يستخدم MDM تقنية تقليل التشويش المشتركة بدقة متعددة لجعل الصور التي تم إنشاؤها أكثر ثراءً بالتفاصيل وأكثر واقعية، مما يؤدي إلى تحسين الجودة الإجمالية للصورة بشكل كبير.
يُطلق على البنية الأساسية لـ MDM اسم NestedUNet، ويعزز مفهوم التصميم هذا مفهوم الدمى المتداخلة. في هذه البنية، يحتوي كل مستوى على بنية أساسية أصغر ولكنها تعمل بكامل طاقتها، تمامًا مثلما تكون كل دمية من دمى الماتريوشكا مستقلة وكاملة. يمكّن هذا التصميم الفريد MDM من الاستفادة الكاملة من الميزات والمعلمات عالية المستوى عند معالجة المدخلات صغيرة الحجم، وبالتالي تحقيق عملية تعلم وتوليد أكثر كفاءة.
في الوقت الحالي، تواجه نماذج إنشاء الصور والفيديو عالية الجودة بشكل عام تحديات حسابية وتحسينية ضخمة. تعمل الطرق التقليدية إما على إنشاء خطوات تدريجية على مستوى البكسل أو تدريب نموذج صورة مضغوطة أولاً ثم معالجتها على صور منخفضة الدقة. تشبه عملية التدريب على MDM تعليم الطفل كيفية المشي خطوة بخطوة، من طفل صغير إلى خطوة الطيران. يستخدم أسلوب تدريب تدريجي، بدءًا من الدقة المنخفضة والانتقال تدريجيًا إلى الدقة العالية. هذه الطريقة تجعل النموذج أكثر استقرارًا وفعالية عند مواجهة صور جديدة عالية الدقة.
أظهر فريق أبحاث Apple قوة MDM بشكل كامل من خلال سلسلة من الاختبارات المعيارية. لقد أظهر MDM أداءً ممتازًا سواء كان ذلك في تطبيقات إنشاء الصور المشروطة أو تحويل النص إلى صورة وتحويل النص إلى فيديو. ومن الجدير بالذكر بشكل خاص أنه حتى عند التدريب على مجموعة بيانات CC12M التي تحتوي على 12 مليون بكسل فقط، يُظهر MDM قدرات تعميم مذهلة بدون لقطة، مما يعني أنه يمكن أن يؤدي أداءً جيدًا في المشاهد غير المرئية.
تظهر نتائج الأبحاث أن MDM قادر على إنشاء صور بدقة تصل إلى 1024 × 1024 بكسل، وحتى في ظل ظروف البيانات المحدودة نسبيًا، يمكنه أداء مهمته بشكل جيد وإنشاء صور عالية الجودة تلبي المتطلبات. تعمل هذه الميزة على توسيع نطاق تطبيق تقنية توليد الصور بالذكاء الاصطناعي بشكل كبير وتجلب إمكانيات جديدة للصناعات الإبداعية وصناعات التصميم والمجالات الأخرى.
على الرغم من أن MDM قد حقق نتائج مبهرة في مجال توليد الصور والفيديو، إلا أن هذا قد لا يكون سوى غيض من فيض. من المتوقع أن يصبح MDM في المستقبل أكثر ذكاءً، وقادرًا على فهم المعلومات السياقية الأكثر تعقيدًا وإنشاء محتوى أكثر واقعية وتنوعًا. ويمكننا أن نتوقع أن تلعب هذه التكنولوجيا دورًا مهمًا في العديد من المجالات مثل الواقع الافتراضي والواقع المعزز وإنتاج الأفلام وتطوير الألعاب وغيرها.
لا شك أن تقنية نموذج نشر ماتريوشكا التي أطلقتها شركة Apple جلبت اتجاهًا تكنولوجيًا جديدًا في مجال توليد صور الذكاء الاصطناعي. إنه لا يحسن كفاءة وجودة توليد الصور فحسب، بل يشير أيضًا إلى اتجاه جديد لتطوير الصناعة بأكملها. مع التحسين المستمر للتكنولوجيا وتعميق تطبيقها، لدينا سبب للاعتقاد بأن MDM ستلعب دورًا متزايد الأهمية في عالم الإبداع الرقمي المستقبلي، مما يوفر لنا تجارب بصرية أكثر روعة.
صفحة المشروع: https://top.aibase.com/tool/ml-mdm
الورقة: https://arxiv.org/pdf/2310.15111
وبشكل عام، تُظهر نماذج Matryoshka Diffusion Models من Apple الإمكانات الهائلة لتقنية توليد الصور بالذكاء الاصطناعي. وتوفر إمكاناتها الفعالة وعالية الجودة في توليد الصور وإمكانات تعميم العينات الصفرية الممتازة إمكانيات غير محدودة للتطوير المستقبلي للصناعة الإبداعية الرقمية. دعونا ننتظر ونرى كيف ستحدث هذه التكنولوجيا ثورة في تجربتنا البصرية.