علم محرر Downcodes أن H2O.ai أطلقت مؤخرًا نموذجين جديدين للغة المرئية: H2OVL Mississippi-2B وH2OVL-Mississippi-0.8B، بهدف إحداث ثورة في كفاءة تحليل المستندات ومهام التعرف الضوئي على الحروف. يقارن كلا النموذجين بشكل إيجابي في الأداء مع منتجات شركات التكنولوجيا الكبرى، مما يوفر للشركات حلول معالجة مستندات أكثر فعالية من حيث التكلفة. ما هو جدير بالملاحظة بشكل خاص هو أن نموذج H2OVL Mississippi-0.8B الذي يحتوي على 800 مليون معلمة فقط تفوق على الجمهور في مهمة التعرف على النص OCRBench، متجاوزًا العديد من المنتجات المنافسة التي تحتوي على معلمات أكثر بعشرات المرات، مما يظهر أداء النماذج الصغيرة بإمكانات هائلة.
أعلنت H2O.ai مؤخرًا عن إطلاق نموذجين جديدين للغة المرئية مصممين لتحسين كفاءة تحليل المستندات ومهام التعرف البصري على الأحرف (OCR). يتمتع الطرازان، H2OVL Mississippi-2B وH2OVL-Mississippi-0.8B، بقدرة تنافسية مذهلة في الأداء مع نماذج من شركات التكنولوجيا الكبرى، ومن المحتمل أن يقدما حلاً للشركات التي تتعامل مع سير عمل كثيف المستندات، وهو حل أكثر كفاءة.
على الرغم من أن نموذج H2OVL Mississippi-0.8B يحتوي على 800 مليون معلمة فقط، إلا أنه يتفوق على جميع النماذج الأخرى في مهمة التعرف على النص OCRBench، بما في ذلك المنافسين الذين لديهم مليارات المعلمات. كان أداء نموذج H2OVL Mississippi-2B الذي يحتوي على 2 مليار معلمة جيدًا في معايير اللغة المرئية المتعددة.
قال سري أمباتي، المؤسس والرئيس التنفيذي لشركة H2O.ai، في مقابلة: "لقد صممنا نموذج H2OVL Mississippi ليكون حلاً عالي الأداء وفعال من حيث التكلفة لتوفير التعرف الضوئي على الحروف المستند إلى الذكاء الاصطناعي والفهم البصري لمختلف الصناعات والذكاء الاصطناعي للمستندات. "
وأكد أن هذه النماذج يمكن أن تعمل بكفاءة في مجموعة متنوعة من البيئات ويمكن ضبطها بدقة وفقًا لاحتياجات مجالات محددة، مما يساعد الشركات على تقليل التكاليف وتحسين الكفاءة.
أصدرت H2O.ai هذين النموذجين الجديدين مجانًا على منصة Hugging Face، مما يسمح للمطورين والشركات بتعديل النماذج وتكييفها وفقًا لاحتياجاتهم الخاصة. لا تعمل هذه الخطوة على توسيع قاعدة مستخدمي H2O.ai فحسب، بل توفر أيضًا المزيد من الخيارات للمؤسسات التي ترغب في اعتماد حلول الذكاء الاصطناعي للمستندات.
وفي الوقت نفسه، أشار أمباتي أيضًا إلى أنه لا يمكن تجاهل المزايا الاقتصادية للنماذج الصغيرة المصممة لهذا الغرض. "يعتمد نموذج المحولات التوليدية المدرب مسبقًا لدينا على التعاون المتعمق مع العملاء وهو مصمم لاستخراج معلومات مفيدة من مستندات المؤسسة." وأشار إلى أن نموذج H2O.ai يمكن أن يوفر كفاءة عالية مع استهلاك موارد أقل في معالجة المستندات. خاصة عند مواجهة عمليات مسح ضوئي رديئة الجودة، أو كتابة يدوية غير مقروءة، أو مستندات معدلة بشكل كبير.
إدخال النموذج:
H2OVL-Mississippi-0.8B:https://huggingface.co/h2oai/h2ovl-mississippi-800m
H2OVL ميسيسيبي-2B: https://huggingface.co/h2oai/h2ovl-mississippi-2b
تسليط الضوء على:
تطلق H2O.ai نماذج لغة مرئية جديدة H2OVL Mississippi-2B وH2OVL-Mississippi-0.8B لتوفير حلول فعالة لتحليل المستندات.
يتفوق نموذج H2OVL Mississippi-0.8B على المنافسين الأكبر حجمًا في مهام التعرف على النصوص، مما يوضح إمكانات النماذج الصغيرة.
تلتزم H2O.ai بحلول مفتوحة المصدر وعملية للذكاء الاصطناعي لمساعدة المؤسسات على استخراج المعلومات القيمة أثناء التحول الرقمي.
تم فتح هذين النموذجين الجديدين من H2O.ai على منصة Hugging Face، ويمكن للمطورين والشركات المهتمة الحصول عليهما واستخدامها مجانًا، مما سيؤدي بلا شك إلى تسريع تعميم وتطبيق تقنية الذكاء الاصطناعي للمستندات. يتطلع محرر Downcodes إلى رؤية المزيد من التطبيقات المبتكرة بناءً على هذين النموذجين.