أصدرت شركة Deepseek المحلية من الذكاء الاصطناعي نموذج Janus-Pro متعدد الوسائط ، حيث دخلت رسميًا في مجال الرسومات الأدبية والسيرة الذاتية وتحقيق نتائج رائعة. هذا المنتج ، استنادًا إلى ترقية نموذج JanusFlow ، تجاوز نماذج معروفة مثل Dall-E3 من Openai في معايير متعددة. تمثل خطوة Deepseek طفرة كبيرة في تقنية AI متعددة الوسائط وتؤثر على حيوية جديدة في تطوير الذكاء الاصطناعي المحلي.
أصدر النموذج الكبير المحلي Deepseek نموذج Janus-Pro الجديد متعدد الوسائط ، الذي يدخل رسميًا في مجال الرسومات الأدبية والسيرة الذاتية. هذه الخطوة تمثل طفرة كبيرة في Deepseek في تقنية AI متعددة الوسائط.
في معايير Geneval و DPG على مقعد DPG ، لا يفوق Janus-Pro-7B فقط Dall-E3 من Openai ، ولكنه يتجاوز أيضًا النماذج الشائعة مثل الانتشار المستقر و EMU3-GEN. يتبنى Janus-Pro بروتوكول MIT مفتوح المصدر ، مما يعني أنه يمكن استخدامه في السيناريوهات التجارية دون قيود. وقال ديبسيك إن يانوس برو هو نسخة متميزة من نماذج Janusflow التي تم إصدارها في 13 نوفمبر 2024.
مقارنةً بنماذج الجيل السابق ، قام Janus-Pro بتحسين استراتيجية التدريب ، وتوسيع بيانات التدريب ، وكان مقياس النموذج أكبر. لقد سمحت هذه التحسينات إلى إحراز تقدم كبير في الفهم متعدد الوسائط وقدرات تتبع التعليمات إلى الصورة إلى الصورة ، مع تعزيز استقرار توليد النص إلى صورة.
على الرغم من أن Janus-Pro لا يمكنه معالجة الصور بدقة 384 × 384 ، إلا أنه من المدهش بالفعل أن تكون قادرًا على الوصول إلى هذا المستوى بالنظر إلى حجم طرازه المدمج.
كنموذج متعدد الوسائط ، لا يمكن لـ Janus-Pro إنشاء صور فحسب ، بل وصف الصور أيضًا ، وتحديد عوامل الجذب البارزة ، وتحديد النص في الصور ، وتقديم المعرفة في الصور.
نقاط:
يطلق Deepseek نموذج Janus-Pro متعدد الوسائط لدخول مجال الرسومات الأدبية والسيرة الذاتية.
في المعايير ، يتجاوز أداء Janus-Pro-7B النماذج الشائعة مثل Dall-E3 من Openai.
يستخدم Janus-Pro بروتوكول MIT مفتوح المصدر ويمكن استخدامه في السيناريوهات التجارية دون قيود.
يشير ظهور Janus-Pro إلى أن القوة التكنولوجية للنماذج الكبيرة المحلية في مجال الصور الأدبية والسيرة ذاتية تزداد بسرعة. ل!