上海人工知能研究所は最近、同社が開発した InternLM-XComposer マルチモーダル大型モデルがバージョン 2.5 (IXC-2.5) にアップグレードされたと発表しました。このバージョンでは、長いコンテキストの理解、視覚的な言語の理解、アプリケーションの拡張において大きな進歩があり、テキスト画像の理解と作成機能が大幅に向上し、複数のベンチマーク テストで既存のオープン ソース モデルを上回りました。一部の指標は GPT-4V や Gemini Pro にさえ匹敵します。匹敵するものである。 IXC-2.5 は強力なパフォーマンスと幅広いアプリケーションの可能性を示し、マルチモーダル大規模モデル開発の新たなベンチマークを設定します。
最近、InternLM-XComposer のマルチモーダル大型モデルがバージョン 2.5 にアップグレードされました。このモデルは上海人工知能研究所によって開発され、優れたロングコンテキストの入出力機能によりテキストと画像の理解が向上し、創造的なアプリケーションがもたらされました。革命的な躍進。
IXC-2.5 は、トレーニングで使用される 24K のインターリーブされた画像テキスト データのおかげで、最大 96K の長いコンテキストを簡単に処理できます。このロング コンテキスト機能により、IXC-2.5 は広範な入出力コンテキストを必要とするタスクで適切に実行できます。
以前のバージョンと比較して、IXC-2.5 には視覚言語理解において 3 つの主要なアップグレードがあります。
超高解像度の理解: IXC-2.5 は、ネイティブ 560×560ViT ビジュアル エンコーダーを通じて、あらゆるアスペクト比の高解像度画像をサポートします。
きめ細かいビデオの理解:ビデオを数十から数百のフレームで構成される超高解像度の合成画像として扱い、高密度のサンプリングと高解像度を通じて詳細をキャプチャします。
マルチターンおよびマルチピクチャダイアログ:人間との自然なインタラクションのための自由形式のマルチターンおよびマルチピクチャダイアログをサポートします。
IXC-2.5 では、理解力の向上に加えて、テキスト イメージ作成用の追加 LoRA パラメーターを使用して、2 つの魅力的なアプリケーションも拡張しています。
Web ページの作成: テキスト画像の指示に基づいて、IXC-2.5 は HTML、CSS、および JavaScript ソース コードを記述して Web ページを作成できます。
高品質のグラフィック記事を作成する: 特別に設計された思考連鎖 (CoT) および直接優先最適化 (DPO) テクノロジーを使用して、執筆コンテンツの品質を大幅に向上させます。
IXC-2.5 は 28 のベンチマークで評価され、16 のベンチマークで既存のオープンソースの最先端モデルを上回っています。さらに、16 の主要なタスクにおいて GPT-4V や Gemini Pro と同等かそれを上回っています。この成果は、IXC-2.5 の強力なパフォーマンスと幅広い応用可能性を十分に証明しています。
論文アドレス: https://arxiv.org/pdf/2407.03320
プロジェクトアドレス: https://github.com/InternLM/InternLM-XComposer
全体として、バージョン IXC-2.5 のリリースは、マルチモーダル大型モデル技術の大幅な進歩を示しており、その強力なパフォーマンスと豊富なアプリケーション シナリオは、将来の人工知能技術の開発に明るい未来を示しています。 今後もさらに強力な機能アップデートが行われることを楽しみにしています。