L'éditeur de Downcodes a appris que H2O.ai a récemment lancé deux nouveaux modèles de langage visuel : H2OVL Mississippi-2B et H2OVL-Mississippi-0.8B, visant à révolutionner l'efficacité des tâches d'analyse de documents et d'OCR. Les performances des deux modèles se comparent favorablement à celles des produits des grandes entreprises technologiques, offrant aux entreprises des solutions de traitement de documents plus rentables. Ce qui est particulièrement remarquable, c'est que le modèle H2OVL Mississippi-0.8B avec seulement 800 millions de paramètres a surpassé la foule dans la tâche de reconnaissance de texte OCRBench, surpassant de nombreux produits concurrents avec des dizaines de fois plus de paramètres, montrant les performances des petits modèles.
Récemment, H2O.ai a annoncé le lancement de deux nouveaux modèles de langage visuel conçus pour améliorer l'efficacité des tâches d'analyse de documents et de reconnaissance optique de caractères (OCR). Les deux modèles, H2OVL Mississippi-2B et H2OVL-Mississippi-0.8B, sont incroyablement compétitifs en termes de performances par rapport aux modèles des grandes entreprises technologiques, offrant potentiellement une solution plus efficace pour les entreprises confrontées à des flux de travail volumineux.
Bien que le modèle H2OVL Mississippi-0.8B ne comporte que 800 millions de paramètres, il surpasse tous les autres modèles dans la tâche de reconnaissance de texte OCRBench, y compris ses concurrents dotés de milliards de paramètres. Le modèle H2OVL Mississippi-2B à 2 milliards de paramètres a obtenu de bons résultats dans plusieurs tests de langage visuel.
Sri Ambati, fondateur et PDG de H2O.ai, a déclaré dans une interview : « Nous avons conçu le modèle H2OVL Mississippi pour être une solution performante et rentable pour fournir une OCR basée sur l'IA, une compréhension visuelle à diverses industries et une IA documentaire. »
Il a souligné que ces modèles peuvent fonctionner efficacement dans une variété d'environnements et peuvent être ajustés en fonction des besoins de domaines spécifiques, aidant ainsi les entreprises à réduire leurs coûts et à améliorer leur efficacité.
H2O.ai a publié gratuitement ces deux nouveaux modèles sur la plateforme Hugging Face, permettant aux développeurs et aux entreprises de modifier et d'adapter les modèles en fonction de leurs propres besoins. Cette décision élargit non seulement la base d'utilisateurs de H2O.ai, mais offre également davantage d'options aux entreprises qui souhaitent adopter des solutions d'IA documentaire.
Dans le même temps, Ambati a également noté que les avantages économiques des petits modèles spécialement conçus ne peuvent être ignorés. « Notre modèle de transformateur génératif pré-entraîné est basé sur une coopération approfondie avec les clients et est conçu pour extraire des informations significatives des documents d'entreprise. » Il a souligné que le modèle de H2O.ai peut fournir une efficacité élevée tout en consommant moins de capacités de traitement de documents. surtout face à des numérisations de mauvaise qualité, une écriture manuscrite illisible ou des documents fortement modifiés.
Entrée du modèle :
H2OVL-Mississippi-0.8B :https://huggingface.co/h2oai/h2ovl-mississippi-800m
H2OVL Mississippi-2B : https://huggingface.co/h2oai/h2ovl-mississippi-2b
Souligner:
H2O.ai lance de nouveaux modèles de langage visuel H2OVL Mississippi-2B et H2OVL-Mississippi-0.8B pour fournir des solutions efficaces d'analyse de documents.
Le modèle H2OVL Mississippi-0.8B surpasse ses concurrents plus grands dans les tâches de reconnaissance de texte, démontrant ainsi le potentiel des petits modèles.
H2O.ai s'engage à proposer des solutions d'IA open source et pratiques pour aider les entreprises à extraire des informations précieuses lors de la transformation numérique.
Ces deux nouveaux modèles de H2O.ai sont open source sur la plateforme Hugging Face, et les développeurs et entreprises intéressés peuvent les obtenir et les utiliser gratuitement. Cela accélérera sans aucun doute la vulgarisation et l'application de la technologie de l'IA documentaire. L'éditeur de Downcodes attend avec impatience de voir des applications plus innovantes basées sur ces deux modèles.