シンガポール国立大学の NExT++ 研究室と清華大学の Liu Zhiyuan チームは協力して、検出モジュールとセグメンテーション モジュールを統合した強力なマルチモーダル大規模モデルを開発し、マット化プロセスを大幅に簡素化しました。ユーザーは自然言語を使用してターゲット オブジェクトを説明するだけでよく、モデルはそれに迅速かつ正確にラベルを付け、対応するテキストの説明を提供します。この画期的なテクノロジーは、複数のデータセット、特に参照セグメンテーションと REC タスクで優れたパフォーマンスを実証しました。
シンガポール国立大学の NExT++ 研究室と清華大学の Liu Zhiyuan チームが作成した大規模なマルチモーダル モデルには、検出およびセグメンテーション モジュールが統合されており、画像のマッティングが容易になります。自然言語で要件を記述することにより、モデルは探しているオブジェクトをすばやくマークし、テキストによる説明を提供できます。このモデルは、複数のタスク データ セットに対する優れた実験パフォーマンスを備えており、セグメンテーションおよび REC タスクを参照する優れた機能を備えています。さらに、このモデルは、より優れた位置モデリング機能を備えた埋め込みに基づく位置モデリング手法も導入しています。トレーニング プロセスの最適化により、モデルは注釈が少ないセグメンテーション タスクでも優れたパフォーマンスを達成できます。
このモデルの埋め込みベースの位置モデリング手法と最適化されたトレーニング プロセスにより、データ アノテーションが乏しいセグメンテーション タスクで満足のいく結果を達成することができ、その強力な適応性と実用性を実証し、将来のマルチモーダル モダリティの基礎を築くことができます。新しい方向性とアイデア。 この研究成果は、画像処理や人工知能関連分野への幅広い影響が期待されます。