NVIDIA、写真を見ながらチャットできる新しいビジュアルスピーチモデル NVEagle を発表

著者：Eve Cole 更新時間：2024-12-27 09:32:01

NVIDIA は、ジョージア工科大学、UMD、HKPU の研究チームと協力して、新しいビジュアル言語モデル NVEagle を発表します。このマルチモーダル大規模言語モデル (MLLM) は、画像を理解し、自然言語での会話を行うことができるため、「見て話す」ことができるスーパーアシスタントになります。画像を視覚的なマークアップに変換し、テキスト埋め込みと組み合わせることで視覚情報の理解を大幅に向上させ、OCRBench で平均スコア 85.9 を達成するなど、複数のベンチマークで優れたパフォーマンスを発揮し、多くの主要モデルを上回っています。 NVEagle は、さまざまなタスク要件を満たすために 3 つのバージョンを提供しており、その中で 13B-Chat バージョンは特に会話型 AI 用に最適化されています。

たとえば、写真内の人物を正確に識別し、「Huang Renxun」などの質問に答えることができます。ただし、このような強力なモデルの構築には、高解像度画像処理における「幻覚」現象などの課題も伴います。研究チームは、特に Mixed Expert (MoE) メカニズムを使用して、さまざまな視覚エンコーダと融合戦略を探索することで、これらの困難を克服し、複雑な視覚情報の正確な処理を達成しました。 NVEagle は、研究者や開発者の便宜を図るために、Hugging Face プラットフォーム上でリリースされました。 OCR、TextVQA、GQA などのタスクにおける優れたパフォーマンスは、その強力な視覚理解および言語生成機能を実証し、視覚言語モデル開発の新しいベンチマークを設定します。

プロジェクト入口: https://top.aibase.com/tool/eagle

デモ:https://huggingface.co/spaces/NVEagle/Eagle-X5-13B-Chat

ハイライト:

NVEagle は、NVIDIA が発表した新世代の視覚言語モデルで、複雑な視覚情報の理解を向上させるように設計されています。

モデルには、さまざまなタスクに適した 3 つのバージョンが含まれています。13B-Chat バージョンは、会話型 AI に焦点を当てています。

?複数のベンチマークにおいて、Eagleモデルは多くの既存の主要モデルを上回り、優れたパフォーマンスを実証しています。

全体として、NVEagle の登場は、ビジュアル言語モデルテクノロジーにおける大きな進歩を意味し、その強力なパフォーマンスと使いやすさは、多くのアプリケーションシナリオに革新をもたらし、人工知能テクノロジーのさらなる発展を促進します。将来的には、NVEagle の幅広いアプリケーションとより詳細な研究が期待されます。