أصدرت Zhiyuan النموذج العالمي الأصلي متعدد الوسائط Emu3: تحقيق فهم وإنشاء النصوص والصور والفيديو فقط من خلال التنبؤ بالرمز المميز التالي

الكاتب：Eve Cole وقت التحديث：2024-12-03 16:48:01

سيأخذك محرر Downcodes للتعرف على Emu3، أحدث نموذج عالمي متعدد الوسائط أصدره معهد Zhiyuan للأبحاث! يعتمد Emu3 على قدرته الفريدة على "التنبؤ بالرمز التالي" لتحقيق اختراق في الفهم وقدرات التوليد في ثلاث طرق: النص والصورة والفيديو. فهو لا يمكنه إنشاء صور عالية الجودة ومقاطع فيديو سلسة وطبيعية فحسب، بل يمكنه أيضًا إجراء فهم دقيق للصور والتنبؤ بالفيديو. ويتجاوز أدائه أداء العديد من النماذج مفتوحة المصدر المعروفة. تضفي طبيعة المصدر المفتوح لـ Emu3 أيضًا حيوية جديدة على تطوير الذكاء الاصطناعي متعدد الوسائط، دعونا نستكشف الابتكار التكنولوجي والإمكانات المستقبلية وراءه.

أصدر معهد Zhiyuan للأبحاث رسميًا الجيل الجديد من النموذج العالمي متعدد الوسائط Emu3، وأهم ما يميز هذا النموذج هو أنه يمكنه التنبؤ بالرمز المميز التالي في ثلاثة أوضاع مختلفة: النص والصورة والفيديو للفهم والتوليد.

فيما يتعلق بتوليد الصور، فإن Emu3 قادر على إنشاء صور عالية الجودة بناءً على التنبؤ بالرمز المرئي. وهذا يعني أنه يمكن للمستخدمين توقع دقة مرنة ومجموعة متنوعة من الأنماط.

فيما يتعلق بإنشاء الفيديو، يعمل Emu3 بطريقة جديدة تمامًا، على عكس النماذج الأخرى التي تولد مقاطع فيديو من خلال الضوضاء، يقوم Emu3 بإنشاء مقاطع فيديو مباشرة من خلال التنبؤ المتسلسل. هذا التقدم التكنولوجي يجعل توليد الفيديو أكثر سلاسة وأكثر طبيعية.

في مهام مثل إنشاء الصور، وإنشاء الفيديو، وفهم اللغة المرئية، يتجاوز أداء Emu3 أداء العديد من النماذج مفتوحة المصدر المعروفة، مثل SDXL، وLLaVA، وOpenSora. يوجد خلفه رمز مرئي قوي يمكنه تحويل مقاطع الفيديو والصور إلى رموز منفصلة. يوفر هذا التصميم أفكارًا جديدة للمعالجة الموحدة للنصوص والصور ومقاطع الفيديو.

على سبيل المثال، فيما يتعلق بفهم الصورة، يحتاج المستخدمون فقط إلى إدخال سؤال، ويمكن لـ Emu3 وصف محتوى الصورة بدقة.

يتمتع Emu3 أيضًا بقدرات التنبؤ بالفيديو. عند إعطاء مقطع فيديو، يستطيع Emu3 التنبؤ بما سيحدث بعد ذلك بناءً على المحتوى الموجود. ويمكّنها ذلك من إظهار قدرات قوية في محاكاة البيئات وسلوكيات الإنسان والحيوان، مما يتيح للمستخدمين تجربة تفاعلية أكثر واقعية.

بالإضافة إلى ذلك، فإن مرونة تصميم Emu3 منعشة. يمكن تحسينه مباشرة مع التفضيلات البشرية بحيث يكون المحتوى الذي تم إنشاؤه أكثر انسجاما مع توقعات المستخدم. علاوة على ذلك، فقد اجتذب Emu3، باعتباره نموذجًا مفتوح المصدر، مناقشات ساخنة في المجتمع التقني، ويعتقد الكثير من الناس أن هذا الإنجاز سيغير تمامًا نمط تطوير الذكاء الاصطناعي متعدد الوسائط.

عنوان URL للمشروع: https://emu.baai.ac.cn/about

الورقة: https://arxiv.org/pdf/2409.18869

تسليط الضوء على:

يحقق Emu3 فهمًا متعدد الوسائط وإنشاء النصوص والصور ومقاطع الفيديو من خلال التنبؤ بالرمز المميز التالي.

في المهام المتعددة، تجاوز أداء Emu3 أداء العديد من النماذج مفتوحة المصدر المعروفة، مما يدل على قدراتها القوية.

يوفر تصميم Emu3 المرن وميزاته مفتوحة المصدر للمطورين فرصًا جديدة ومن المتوقع أن يشجعوا الابتكار وتطوير الذكاء الاصطناعي متعدد الوسائط.

يمثل ظهور Emu3 علامة فارقة جديدة في مجال الذكاء الاصطناعي متعدد الوسائط. مما لا شك فيه أن أدائها القوي وتصميمها المرن وميزاتها مفتوحة المصدر سيكون لها تأثير عميق على التطور المستقبلي للذكاء الاصطناعي. ونحن نتطلع إلى استخدام Emu3 في المزيد من المجالات وتقديم المزيد من الراحة والمفاجآت للبشرية!