أصدر Face Hugging Model SmolvLM المذهل للوزن الخفيف الوزن ، وهو صغير الحجم ويمكنه تشغيله على أجهزة صغيرة مثل الهواتف المحمولة ، ولكن أدائها يتجاوز طراز IDEFICS80B الأكبر 300 مرة. يمثل هذا التقدم الذي تقدمه تقدم تطبيقات الذكاء الاصطناعي نحو عصر النشر الأوسع والمنخفض التكلفة ، مما يوفر للمؤسسات الكثير من تكاليف الحوسبة وتحسين كفاءة المعالجة. يوفر ظهور SMOLVLM فرصة غير مسبوقة للشركات الصغيرة والشركات الناشئة لتطوير تطبيقات رؤية الكمبيوتر المعقدة بسرعة بتكلفة أقل.
أطلقت Hugging Face نموذج AI رائع - SMOLVLM. نموذج اللغة البصرية هذا صغير بما يكفي لتشغيله على أجهزة صغيرة مثل الهواتف المحمولة ويتفوق على الأسلاك التي تتطلب الدعم من مراكز البيانات الكبيرة.
يتطلب متطلبات ذاكرة GPU لنموذج SMOLVLM-256M أقل من 1 جيجابايت ، لكن أدائها يتجاوز نموذجها IDEFICS80B ، وهو أكبر 300 مرة من حجمه ، مما يمثل تقدمًا كبيرًا في نشر الذكاء الاصطناعي العملي.
وفقًا لـ Andres Malafiotti ، وهو مهندس أبحاث التعلم الآلي في Hugging Face ، فإن نموذج SMOLVLM يجلب أيضًا تخفيضات كبيرة في تكاليف الحوسبة للمؤسسات أثناء تقديمه إلى السوق. "كان IDEFICS80B الذي أصدرناه سابقًا نموذج لغة الفيديو مفتوح المصدر في أغسطس 2023 ، في حين أن إطلاق SMOLVLM حقق انخفاضًا في الحجم وتحسين الأداء."
يتزامن إطلاق نموذج SMOLVLM مع لحظة حرجة عندما تواجه المؤسسات تكاليف حوسبة عالية في تنفيذ أنظمة الذكاء الاصطناعى. يتضمن النموذج الجديد مقياسين للمعلمة ، 256 مترًا و 500 متر ، مما يسمح بمعالجة الصور والمحتوى المرئي بسرعات لا يمكن تصورها مسبقًا. يمكن للإصدار الدنيا أن يعالج ما يصل إلى 16 حالة في الثانية ويتطلب فقط 15 جيجابايت من الذاكرة ، مما يجعله مناسبًا بشكل خاص للشركات التي تحتاج إلى معالجة كميات كبيرة من البيانات المرئية. بالنسبة للشركات المتوسطة الحجم التي تعالج مليون صورة شهريًا ، فإن هذا يعني وفورات كبيرة في التكاليف الحسابية.
بالإضافة إلى ذلك ، وصلت IBM أيضًا إلى شراكة مع Hugging Face لدمج نموذج 256M في برنامج معالجة المستندات الخاص به. على الرغم من أن IBM لديها موارد حوسبة وفيرة ، فإن استخدام نماذج أصغر يجعلها فعالة في معالجة ملايين الملفات بتكلفة أقل.
قام فريق Hugging Face بتقليل حجم النموذج بنجاح دون فقدان الأداء من خلال الابتكارات التكنولوجية في المعالجة البصرية والمكونات اللغوية. لقد استبدلوا تشفير البصرية البصري 400m الأصلي بإصدار معلمة 93M وقاموا بتنفيذ تقنية ضغط رمزية أكثر عدوانية. تسمح هذه الابتكارات للشركات الصغيرة والشركات الناشئة بإطلاق منتجات رؤية الكمبيوتر المعقدة في فترة زمنية قصيرة ، وتقليل تكاليف البنية التحتية بشكل كبير.
تحتوي مجموعة بيانات تدريب SMOLVLM على 170 مليون مثال تدريبي ، ما يقرب من نصفها تستخدم في معالجة المستندات وشرح الصور. هذه التطورات لا تقلل من التكاليف فحسب ، بل توفر أيضًا إمكانيات تطبيق جديدة للمؤسسات ، مما يزيد من قدراتها في البحث المرئي إلى مستوى غير مسبوق.
يواجه هذا التقدم من خلال معانقة التحديات التصورات التقليدية للعلاقة بين حجم النموذج والقدرة. يثبت SMOLVLM أن البنى الصغيرة والفعالة يمكنها أيضًا تحقيق أداء ممتاز.
النموذج: https://huggingface.co/blog/smolervlm
نقاط:
يمكن أن يعمل طراز SMOLVLM الذي تم إطلاقه عن طريق Hugging Face على الهواتف المحمولة ويحتوي على أداء يزيد عن 300 مرة من طراز IDEFICS80B.
يساعد نموذج SMOLVLM المؤسسات على تقليل تكاليف الحوسبة بشكل كبير ، مع سرعات المعالجة من 16 حالة في الثانية.
تسمح الابتكارات التكنولوجية لهذا النموذج للشركات الصغيرة والشركات الناشئة بإطلاق منتجات رؤية الكمبيوتر المعقدة في وقت قصير.
يشير ظهور SMOLVLM إلى أن تطبيقات الذكاء الاصطناعى ستصبح أكثر شعبية ، ويمكن للشركات الصغيرة والمطورين الفرديين الاستفادة بسهولة من تقنية الذكاء الاصطناعى القوية لتعزيز الابتكار وتطوير الذكاء الاصطناعي في المزيد من المجالات. ستعمل خصائصها الخفيفة الوزن والعالية الأداء على تغيير فهمنا لنماذج الذكاء الاصطناعي والإشارة إلى مسار جديد لاتجاه التنمية المستقبلية لتكنولوجيا الذكاء الاصطناعي.