Downcodes の編集者は、H2O.ai が文書分析と OCR タスクの効率に革命を起こすことを目的として、H2OVL Mississippi-2B と H2OVL-Mississippi-0.8B という 2 つの新しいビジュアル言語モデルを最近リリースしたことを知りました。どちらのモデルも、大手テクノロジー企業の製品と比べてパフォーマンスが優れており、よりコスト効率の高い文書処理ソリューションを企業に提供します。特に注目に値するのは、わずか 8 億個のパラメーターを備えた H2OVL Mississippi-0.8B モデルが、OCRBench テキスト認識タスクで他の製品よりも優れたパフォーマンスを示し、数十倍のパラメーターを備えた多くの競合製品を上回り、小規模モデルの潜在的なパフォーマンスを示したことです。
最近、H2O.ai は、文書分析と光学式文字認識 (OCR) タスクの効率を向上させるために設計された 2 つの新しいビジュアル言語モデルの発売を発表しました。 H2OVL Mississippi-2B と H2OVL-Mississippi-0.8B の 2 つのモデルは、大手テクノロジー企業のモデルと比べてパフォーマンスにおいて優れており、ドキュメントの多いワークフローを扱う企業に、より効率的なソリューションを提供する可能性があります。
H2OVL Mississippi-0.8B モデルには 8 億個のパラメーターしかありませんが、OCRBench テキスト認識タスクでは、数十億個のパラメーターを持つ競合他社を含む他のすべてのモデルを上回っています。 20 億パラメータの H2OVL Mississippi-2B モデルは、複数の視覚言語ベンチマークで良好なパフォーマンスを示しました。
H2O.ai の創設者兼 CEO のスリ・アンバティ氏はインタビューで次のように述べています。「私たちは、AI 主導の OCR、さまざまな業界への視覚的理解、およびドキュメント AI を提供する、高性能でコスト効率の高いソリューションとなるように H2OVL ミシシッピ モデルを設計しました。 」
同氏は、これらのモデルはさまざまな環境で効率的に実行でき、特定分野のニーズに応じて微調整できるため、企業のコスト削減と効率の向上に役立つと強調した。
H2O.ai は、これら 2 つの新しいモデルを Hugging Face プラットフォーム上で無料でリリースし、開発者や企業が独自のニーズに応じてモデルを変更および適応できるようにしました。この動きは、H2O.ai のユーザー ベースを拡大するだけでなく、ドキュメント AI ソリューションを導入したい企業に、より多くの選択肢を提供します。
同時にアンバティ氏は、小型の専用モデルの経済的利点は無視できないとも指摘した。 「当社の事前トレーニング済み生成トランスフォーマー モデルは、顧客との綿密な協力に基づいており、企業ドキュメントから有意義な情報を抽出するように設計されています。」 同氏は、H2O.ai のモデルは、リソースの消費を抑えながら高効率を実現できると指摘しました。特に、低品質のスキャン、判読できない手書き文字、または大幅に変更された文書に直面した場合に発生します。
モデルエントリ:
H2OVL-ミシシッピ-0.8B:https://huggingface.co/h2oai/h2ovl-mississippi-800m
H2OVL ミシシッピ-2B: https://huggingface.co/h2oai/h2ovl-mississippi-2b
ハイライト:
H2O.ai は、効率的なドキュメント分析ソリューションを提供するために、新しいビジュアル言語モデル H2OVL Mississippi-2B および H2OVL-Mississippi-0.8B を発表しました。
H2OVL Mississippi-0.8B モデルは、テキスト認識タスクにおいて大規模な競合他社を上回り、小型モデルの可能性を示しています。
H2O.ai は、企業がデジタル変革中に貴重な情報を抽出できるよう、オープンソースの実用的な AI ソリューションに取り組んでいます。
H2O.ai のこれら 2 つの新しいモデルは、Hugging Face プラットフォーム上でオープンソース化されており、興味のある開発者や企業は無料で入手して使用できるため、ドキュメント AI テクノロジーの普及と応用が加速することは間違いありません。 Downcodes の編集者は、これら 2 つのモデルに基づくさらに革新的なアプリケーションを期待しています。