أصدرت Mistral AI بشكل مثير للدهشة أول نموذج كبير مفتوح المصدر ومتعدد الوسائط Pixtral12B، حيث يمكن مقارنة مقياس المعلمات الذي يبلغ 12 مليار وقدرتها القوية على معالجة الصور والنصوص بسلسلة Anthropic's Claude وGPT-4 من OpenAI. والأمر الأكثر إثارة للدهشة هو أن Mistral AI يكشف مباشرة عن أوزان النماذج ويوفر أيضًا تنزيلات رابط مغناطيسي، مما يقلل بشكل كبير من عتبة الاستخدام ويسهل على المطورين والباحثين البدء بسرعة. يبلغ حجم Pixtral12B 23.64 جيجابايت فقط، وهو خفيف الوزن بين النماذج متعددة الوسائط، ويستهلك طاقة منخفضة، وسهل النشر، ويمكن تنزيله في بضع دقائق عبر شبكة عالية السرعة.
صدمت Mistral AI عالم الذكاء الاصطناعي مرة أخرى وأطلقت Pixtral12B، وهو أول نموذج كبير مفتوح المصدر ومتعدد الوسائط. هذا النموذج، الذي يمكنه معالجة الصور والنصوص في وقت واحد، ليس متقدمًا من الناحية التكنولوجية فحسب، بل يجذب أيضًا اهتمامًا واسع النطاق لانفتاحه. تقوم Mistral AI بنشر أوزان النموذج مباشرة عبر الإنترنت، كما أنها توفر روابط مغناطيسية بشكل مدروس.
أهم ما يميز Pixtral12B ليس فقط وظائفه القوية، ولكن أيضًا تصميمه الرائع. يبلغ الحجم الإجمالي للنموذج 23.64 جيجابايت فقط، مما يجعله لاعبًا خفيف الوزن بين النماذج متعددة الوسائط. تعمل هذه الميزة على تقليل استهلاك الطاقة وعتبة النشر بشكل كبير، مما يسمح لمزيد من المطورين والباحثين بالبدء بسهولة. يُذكر أن المستخدمين الذين لديهم اتصالات إنترنت عالية السرعة يمكنهم إكمال التنزيل في دقائق معدودة فقط، مما يحسن بشكل كبير إمكانية الوصول إلى النموذج.
باعتبارها أحدث تحفة ميسترال للذكاء الاصطناعي، تم تطوير Pixtral12B استنادًا إلى نموذج النص الخاص بها Nemo12B ويحتوي على 12 مليار معلمة. وتشبه قدراتها النماذج المتعددة الوسائط المعروفة مثل سلسلة Anthropic's Claude وGPT-4 من OpenAI، ويمكنها فهم مجموعة متنوعة من الأسئلة المعقدة المتعلقة بالصور والإجابة عليها.
فيما يتعلق بالمواصفات الفنية، فإن Pixtral12B مثير للإعجاب بنفس القدر: هيكل شبكة مكون من 40 طبقة، و14336 بُعدًا مخفيًا، و32 رأس انتباه، وجهاز تشفير مرئي مخصص 400 ميجا يدعم معالجة الصور بدقة 1024 × 1024.
ما هو أكثر جدير بالذكر هو أن أداء Pixtral12B كان جيدًا في عدد من الاختبارات المعيارية الموثوقة. على منصات مثل MMMU، وMathvista، وChartQA، وDocVQA، تجاوزت نتائجها العديد من النماذج متعددة الوسائط المعروفة بما في ذلك Phi-3 وQwen-27B، مما يثبت قوتها القوية تمامًا.
مما لا شك فيه أن خطوة Mistral AI ستعزز موجة المصادر المفتوحة للنماذج متعددة الوسائط. كانت استجابة المجتمع لهذا النموذج الجديد ساحقة، حيث كان العديد من المطورين والباحثين حريصين على البدء في استكشاف إمكانات Pixtral12B. ولا يعكس هذا حيوية مجتمع المصادر المفتوحة فحسب، بل يشير أيضًا إلى أن تكنولوجيا الذكاء الاصطناعي متعدد الوسائط قد تبشر بجولة جديدة من الابتكار.
مع إصدار Pixtral12B، أصبح لدينا سبب للتطلع إلى ظهور المزيد من التطبيقات المبتكرة. سواء كان ذلك في مجالات فهم الصور، أو تحليل المستندات، أو التفكير متعدد الوسائط، فقد يحقق هذا النموذج تقدمًا كبيرًا. لقد ساهمت هذه الخطوة التي اتخذتها شركة Mistral AI بلا شك في إضفاء الطابع الديمقراطي على تكنولوجيا الذكاء الاصطناعي وتعميمها، فلننتظر ونرى كيف ستعيد تشكيل نمط مجال الذكاء الاصطناعي في المستقبل.
عنوان المعانقة: https://huggingface.co/mistral-community/pixtral-12b-240910
يمثل الإصدار المفتوح المصدر لـ Pixtral12B مرحلة جديدة في تطوير تقنية الذكاء الاصطناعي متعددة الوسائط، وسيعمل تصميمها خفيف الوزن وأدائها القوي على تعزيز تعميم وتطبيق تقنية الذكاء الاصطناعي بشكل كبير. ونحن نتطلع إلى رؤية المزيد من التطبيقات المبتكرة المستندة إلى Pixtral12B. .