近年、人工知能の分野は視覚と言語の統合において大きな進歩を遂げており、特に大規模な言語モデルの出現により、マルチモーダル人工知能システムの開発に新たな活力が注入されています。ただし、視覚と視覚言語の強力な基礎モデルを構築するにはまだ課題があります。この課題に対処するために、多くの有名な大学や研究機関の研究者が協力して、基本的な視覚モデルの規模と汎用性を向上させ、さまざまな視覚言語モデルに適切に対応することを目的とした、InternVL と呼ばれる革新的なモデルを開発しました。
最近、人工知能の分野は、特に大規模言語モデル (LLM) の出現により、視覚と言語のシームレスな統合に焦点を当てており、大きな進歩を遂げています。ただし、マルチモーダル AGI システムの場合、視覚と視覚言語の基本モデルの開発がまだ追いつく必要があります。このギャップを埋めるために、南京大学、OpenGVLab、上海人工知能研究所、香港大学、香港中文大学、清華大学、中国科学技術大学、SenseTime Researchの研究者らが革新的なモデルであるInternVLを提案しました。このモデルは、ビジョンベースのモデルの規模を拡大し、一般的な視覚言語タスクに適応させます。 InternVL は、32 の一般的な視覚言語ベンチマークで既存の方法を上回るパフォーマンスを示し、画像とビデオの分類、画像とビデオのテキスト検索、画像キャプション、視覚的な質問応答、マルチモーダル対話などのさまざまなタスクで優れた機能を実証します。InternVL モデルの登場は、視覚言語モデルの開発における新たな段階を示し、複数のベンチマーク テストでの優れた結果は、将来のマルチモーダル人工知能システムの構築に新たな方向性と可能性をもたらします。このモデルは、将来的にはより実用的なアプリケーションで役割を果たし、人工知能技術の開発と応用を促進することが期待されています。