يقدم لك محرر Downcodes الأخبار المهمة حول MiniCPM-V2.6! حقق نموذج الذكاء الاصطناعي متعدد الوسائط هذا الذي يحتوي على معلمات 8B فقط نتائج SOTA لنماذج أقل من 20B في المجالات الثلاثة لفهم الصورة الفردية والصور المتعددة والفيديو، ويمكن تسميته بمعجزة النماذج الصغيرة! فهو لا يتمتع بأداء قوي فحسب، بل يحقق أيضًا كفاءة تشغيل عالية للغاية وسهولة في الاستخدام على الأجهزة الطرفية، مما يوفر إمكانيات جديدة لتطبيقات الذكاء الاصطناعي الطرفية، حتى يمكن مقارنتها بـ GPT-4V. دعونا نلقي نظرة أعمق على الوظائف والميزات القوية لبرنامج MiniCPM-V2.6.
يحتوي نموذج الذكاء الاصطناعي متعدد الوسائط الخاص بـ MiniCPM-V2.6 على 8B فقط من المعلمات ولكنه حقق ثلاث نتائج SOTA (حالة الفن، المستوى الأفضل حاليًا) لفهم صورة واحدة وصور متعددة وفيديو أقل من 20B - تم تحسين القدرات النموذجية للذكاء الاصطناعي الجانبي بشكل كبير، وهي متوافقة تمامًا مع مستويات GPT-4V.
وفيما يلي ملخص للميزات:
ميزات النموذج: يحقق MiniCPM-V2.6 تجاوزًا شاملاً للقدرات الأساسية مثل فهم الصورة الواحدة والصور المتعددة والفيديو من جانب العميل، كما يوفر فهمًا فوريًا للفيديو وفهمًا مشتركًا للصور المتعددة ووظائف أخرى من جانب العميل لأول مرة، مما يجعلها أقرب إلى سيناريوهات العالم الحقيقي المعقدة.
الكفاءة والأداء: هذا الطراز صغير وكبير، مع كثافة بكسل عالية للغاية (كثافة الرمز)، وهي ضعف كثافة بكسل ترميز الرمز المميز لـ GPT-4o، ويحقق كفاءة تشغيل عالية للغاية على الأجهزة الطرفية.
سهولة التعامل مع العميل: يتطلب النموذج 6 جيجابايت فقط من الذاكرة بعد التكميم، وتصل سرعة الاستدلال من جانب العميل إلى 18 رمزًا في الثانية، وهو أسرع بنسبة 33% من طراز الجيل السابق، ويدعم لغات متعددة وأطر الاستدلال.
توسيع الوظيفة: يستخدم MiniCPM-V2.6 إمكانات التعرف الضوئي على الحروف (OCR) لترحيل إمكانات تحليل الصور عالية الوضوح للمشاهد ذات الصورة الواحدة إلى مشاهد متعددة الصور والفيديو، مما يقلل عدد الرموز المرئية ويوفر الموارد.
القدرة على الاستدلال: يُظهر قدرة ممتازة في فهم الصور المتعددة ومهام الاستدلال المعقدة، مثل التعليمات خطوة بخطوة لضبط مقعد الدراجة وتحديد الأخاديد خلف الميمات.
ICL متعدد الرسوم البيانية: يدعم النموذج التعلم السياقي بعدد قليل من اللقطات، ويمكنه التكيف بسرعة مع المهام في مجالات محددة، وتحسين استقرار المخرجات.
بنية مرئية عالية الوضوح: من خلال بنية مرئية موحدة، تستمر قدرات التعرف الضوئي على الحروف للنموذج، مما يتيح التوسع السلس من الصور الفردية إلى الصور ومقاطع الفيديو المتعددة.
معدل هلوسة منخفض للغاية: يعمل جهاز MiniCPM-V2.6 بشكل جيد في تقييم الهلوسة، مما يدل على مصداقيته.
يعد إطلاق نموذج MiniCPM-V2.6 ذا أهمية كبيرة لتطوير الذكاء الاصطناعي على الجانب النهائي، فهو لا يعمل على تحسين قدرات المعالجة متعددة الوسائط فحسب، بل يوضح أيضًا إمكانية تحقيق الذكاء الاصطناعي عالي الأداء على الأجهزة الطرفية ذات. موارد محدودة.
عنوان MiniCPM-V2.6 مفتوح المصدر:
جيثب:
https://github.com/OpenBMB/MiniCPM-V
وجه معانق:
https://huggingface.co/openbmb/MiniCPM-V-2_6
عنوان البرنامج التعليمي للنشر llama.cpp، ollama، vllm:
https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc
عنوان سلسلة MiniCPM مفتوح المصدر:
https://github.com/OpenBMB/MiniCPM
مما لا شك فيه أن ظهور MiniCPM-V2.6 قد أعطى دفعة قوية لتطوير تكنولوجيا الذكاء الاصطناعي من جانب العميل. سيوفر أداءه الفعال والقوي وطريقته المفتوحة المصدر موارد قيمة لمزيد من المطورين والباحثين وسيعزز المزيد من الابتكار ونشر تطبيقات الذكاء الاصطناعي على جانب الجهاز. نحن نتطلع إلى سلسلة MiniCPM التي ستجلب المزيد من المفاجآت في المستقبل!