Downcodes編集部が最新テクノロジー情報をお届けします!シアトルの新興企業 Moondream は、驚くべきコンパクトなビジュアル言語モデルである Moondream2 を発表しました。これは、その小型サイズと強力なパフォーマンスで業界で話題を呼んでいます。このオープンソース モデルはさまざまなベンチマーク テストで良好なパフォーマンスを示し、いくつかの点ではより大きなパラメーターで競合他社を上回り、スマートフォンでのローカル画像認識に新たな可能性をもたらしました。 Moondream2 のユニークな点とその背後にある技術革新を詳しく見てみましょう。
最近、シアトルの新興企業 Moondream は、moondream2 と呼ばれるコンパクトなビジュアル言語モデルを発表しました。小型ながら各種ベンチマークテストで好成績を収め、注目を集めた。オープンソース モデルとして、moondream2 はスマートフォン上でローカル画像認識機能を有効にすることを約束しています。
Moondream2 は 3 月に正式にリリースされました。このモデルはテキストと画像の入力を処理でき、質問への回答、テキスト抽出 (OCR)、オブジェクトのカウント、アイテムの分類の機能を備えています。 Moondream チームはリリース以来、モデルの更新を続け、ベースライン パフォーマンスを継続的に改善してきました。 7 月のリリースでは、特に過去の経済データの分析において、OCR と文書の理解が大幅に向上していることがわかります。 DocVQA、TextVQA、GQA のモデルのスコアはすべて 60% を超えており、ローカルで実行した場合にその強力な能力を示しています。
Moondream2 の注目すべき特徴は、そのコンパクトなサイズです。パラメータが 16 億個しかないため、クラウド サーバーだけでなく、ローカル コンピュータや、スマートフォンやシングルボード コンピュータなどの一部の低パフォーマンス デバイスでも実行できます。
サイズが小さいにもかかわらず、そのパフォーマンスは数十億のパラメーターを備えた競合モデルと同等であり、一部のベンチマークではこれらの大型モデルを上回るパフォーマンスさえあります。
モバイルデバイスの視覚言語モデルの比較において、研究者らは、moondream2 のパラメータは 1 億 7,000 万個しかありませんが、そのパフォーマンスは 7 億個のパラメータ モデルと同等であり、そのパフォーマンスは SQA データセットよりわずかに劣るだけであると指摘しました。これは、小規模なモデルは良好なパフォーマンスを示しますが、特定のコンテキストを理解する際に依然として課題に直面していることを示しています。
このモデルの開発者である Vikhyat Korrapati 氏は、moondream2 は SigLIP、Microsoft の Phi-1.5、LLaVA トレーニング データセットなどの他のモデルに基づいて構築されていると述べました。このオープンソース モデルは現在 GitHub で無料でダウンロードでき、デモ バージョンは Hugging Face で公開されています。コーディング プラットフォームでも、moondream2 は開発者コミュニティから幅広い注目を集めており、5,000 を超える星付きレビューを獲得しています。
この成功は投資家を魅了し、Moondream は Felicis Ventures、Microsoft の M12GitHub ファンド、Ascend が主導するシードラウンドで 450 万ドルを調達しました。同社の CEO であるジェイ・アレン氏は、アマゾン ウェブ サービス (AWS) で長年勤務し、成長を続けるスタートアップを率いています。
Moondream2 の発売は、より大規模で古いモデルと同等のパフォーマンスを提供しながら、必要なリソースを削減できる、専門的に最適化された一連のオープンソース モデルの誕生を意味します。 Apple のスマート アシスタントや Google の Gemini Nano など、小規模なローカル モデルがいくつか市場に出ていますが、これら 2 つのメーカーは依然として、より複雑なタスクをクラウドにアウトソーシングしています。
ハグフェイス:https://huggingface.co/vikhyatk/moondream2
github:https://github.com/vikhyat/moondream
Moondream2 の登場は、軽量 AI モデルの精力的な開発を予告し、ローカライズされた AI アプリケーションに新たな可能性をもたらします。また、そのオープンソースの性質により、開発者コミュニティの積極的な参加が促進され、AI テクノロジーの開発に新たな活力が注入されます。今後も同様のイノベーションがさらに増えることを楽しみにしています。