تصدر OpenBMB النموذج متعدد الوسائط minicpm-O2.6 يمكن للهواتف المحمولة أيضًا إجراء مقال معالجة بصرية وصوتية

الكاتب：Eve Cole وقت التحديث：2025-01-28 16:16:02

أحرزت الذكاء الاصطناعي تقدمًا كبيرًا في معالجة الأسلوب المتعدد ، لكن النماذج ذات الأداء العالي تتطلب غالبًا موارد حوسبة ضخمة ، مما يحد من تطبيقه على معدات الحافة. استجابة لهذا التحدي ، أطلقت OpenBMB نموذج Minicpm-O2.6 فعال متعدد الوسائط ، والذي يهدف إلى سد الفجوة بين تقنية AI المتقدمة والمعدات المقيدة للموارد. يحتوي Minicpm-O 2.66 على 8 مليارات من المعلمات ، ويدمج وحدات معالجة الصوت واللغة ، ويتم تحسينها بسلاسة على الهواتف الذكية والأجهزة اللوحية.

في السنوات الأخيرة ، أحرزت تكنولوجيا الذكاء الاصطناعي تقدمًا كبيرًا ، ولكن لا تزال هناك تحديات بين كفاءة الحوسبة والقابلية متعددة الوظائف. تتطلب العديد من النماذج المتقدمة متعددة الأوضاع ، مثل GPT-4 ، عددًا كبيرًا من موارد الحوسبة ، والتي تحد من استخدامها على الخوادم المتطورة ، مما يؤدي إلى استخدام فعال على أجهزة الحافة مثل الهواتف الذكية والأجهزة اللوحية. بالإضافة إلى ذلك ، لا تزال المهام مثل تحليل الفيديو أو نص نقل الصوت في الوقت الفعلي تواجه عقبات تقنية ، مع تسليط الضوء على الطلب على نماذج عالية الكفاءة ومرونة الذكاء الاصطناعي ، وذلك لتحقيق تشغيل سلس في ظل ظروف الأجهزة المحدودة.

من أجل حل هذه المشكلات ، أطلقت OpenBMB مؤخرًا minicpm-O 2.6 ، حيث تمثل هذا النموذج بنية معلمة 8 مليارات لدعم الرؤية والمعالجة الصوتية واللغة ، ويمكن أن يكون ذلك بكفاءة على الأجهزة الهامشية مثل الهواتف الذكية والأجهزة اللوحية والأجهزة. يستخدم Minicpm-O2.6 تصميمًا معياريًا ويدمج عددًا من المكونات القوية:

-SIGLIP-400M للفهم البصري.

-whisper-300m ينفذ معالجة الصوت متعددة اللغات.

-chattts-200m يوفر قدرة الحوار.

-qwen2.5-7b يستخدم لفهم النص المتقدم.

حصل هذا النموذج على درجة متوسطة قدرها 70.2 في اختبار المعيار OpenCompass ، متجاوزًا GPT-4V في المهام البصرية. إن دعمها متعدد اللغة وتشغيلها الفعال على المعدات المستهلك -يجعلها عملية في سيناريوهات التطبيق المختلفة.

Minicpm-O2.6 يحقق أداءً قوياً من خلال التفاصيل الفنية التالية:

-تحسين المعلمة: على الرغم من أن المقياس كبير ، إلا أنه يتم تحسينه من خلال الأطر مثل llama.cpp و VLLM للحفاظ على الدقة وتقليل الطلب على الموارد.

-معالجة Mylocrey: تدعم معالجة الصور حتى 1344 × 1344 ، ولديها وظيفة OCR ، أداء ممتاز.

-دعم الوسائط: دعم معالجة الفيديو والصوت المستمر بحيث يمكن تطبيقها على مشاهد مراقبة الوقت الحقيقية والبث المباشر.

-خصائص الضحك: توفير فهم مزدوج ، استنساخ الصوت ، والتحكم العاطفي لتعزيز التفاعل الحقيقي بين الطبيعة.

-من السهل الاندماج: متوافق مع منصات مثل Gradio ، وتبسيط عملية النشر ، ومناسبة للتطبيقات التجارية مع أقل من مليون مستخدم نشط يوميًا.

توفر هذه الخصائص minicpm-O2.6 للمطورين والمؤسسات ، مما يوفر فرصة لنشر حلول AI المعقدة دون الاعتماد على البنية التحتية الضخمة.

Minicpm-O2.6 أداء جيدا في مختلف الحقول. إنه يتجاوز GPT-4V في المهام البصرية ، ويدرك الحوار الصيني والإنجليزي في الوقت الفعلي ، والتحكم العاطفي والاستنساخ الصوتي من حيث معالجة الصوت ، وله تفاعل ممتاز في اللغة الطبيعية. في الوقت نفسه ، تجعل معالجة الفيديو والصوت المستمرة مناسبة لترجمة الوقت الحقيقي وأدوات التعلم التفاعلية لضمان دقة عالية في مهام التعرف الضوئي على الحروف الرقمية مثل الوثائق.

يمثل إطلاق Minicpm-O 2.6 تطورًا مهمًا لتكنولوجيا الذكاء الاصطناعي ، ويحل بنجاح التحدي طويل الأجل بين النماذج المكثفة للموارد ومعدات الحافة. من خلال الجمع بين إمكانيات الأسلوب المتعدد المتقدمة مع معدات الحافة الفعالة ، يخلق OpenBMB نموذجًا قويًا وسهلًا إلى درجة. مع الذكاء الاصطناعي المتزايد الأهمية في الحياة اليومية ، يوضح Minicpm-O2.6 الفجوة بين كيفية تقليل الابتكار الأداء والتطبيق العملي ، مما يوفر الاستخدام المحتمل للتقنيات المتطورة في المطورين والمستخدمين في مختلف الصناعات.

النموذج: https://huggingface.co/openbmb/minicpm-56

نقاط:

Minicpm-O2.6 هو نموذج متعدد الوسائط مع 8 مليارات معلمات يمكن أن تعمل بكفاءة على معدات الحافة ودعم معالجة الصوت والصوت واللغة.

يؤدي هذا النموذج بشكل ممتاز في اختبار القياس المرجاني ، ويتجاوز درجات المهام البصرية GPT-4V ، ولديها قدرات معالجة متعددة اللغات.

Minicpm-O2.6 لديها وظائف مثل المعالجة في الوقت الفعلي ، والاستنساخ الصوتي ، والتحكم العاطفي ، وهو مناسب للتطبيقات المبتكرة في العديد من الصناعات مثل التعليم والرعاية الطبية.

وبشكل عام ، يمثل ظهور Minicpm-O 2.6 اختراقًا كبيرًا في تطبيقات تقنية الذكاء الاصطناعي. لديه قيمة تطبيق عالية وآفاق التطوير.