Downcodes のエディターでは、CLIP モデルのパフォーマンスを向上させる革新的なテクノロジーである LLM2CLIP について学習します。 CLIP は重要なマルチモーダル基本モデルとして、画像テキスト検索などのタスクでは優れたパフォーマンスを発揮しますが、長いテキストの処理には欠点があります。 Microsoft と同済大学の研究者は、大規模言語モデル (LLM) を巧みに使用して CLIP の視覚表現学習機能を強化し、元の CLIP モデルの制限を克服する LLM2CLIP メソッドを提案しました。
CLIP は検索エンジンとして、ゼロショット分類、検出、セグメンテーション、画像テキスト検索などのさまざまなタスクをサポートできます。同時に、特徴抽出器として、画像の理解、ビデオの理解、テキストから画像またはビデオへの生成など、ほぼすべてのクロスモーダル表現タスクを支配します。 CLIP の力は、詳細なテキスト記述を含む大規模な Web データでのトレーニングのおかげで、画像を自然言語と結び付け、人間の知識をキャプチャできる能力にあります。
ただし、CLIP には長く複雑なテキストの説明を処理する際に一定の制限があります。この問題を克服するために、マイクロソフトと同済大学の研究者は、大規模言語モデル (LLM) を統合することで視覚表現学習を強化することを目的とした LLM2CLIP メソッドを提案しました。この方法は、元の CLIP テキスト エンコーダを大胆に置き換え、LLM の豊富な知識を使用して CLIP のビジュアル エンコーダのパフォーマンスを向上させます。研究によると、LLM を CLIP に直接統合するとパフォーマンスが低下することが判明しているため、この課題に対処する必要があります。
LLM2CLIP メソッドは、「キャプション コントラスト微調整」テクノロジを導入することにより、LLM の画像キャプションを分離する機能を大幅に向上させ、大幅なパフォーマンスの向上を実現します。
研究者らは、小型 CC-3M、中型 CC-3M および CC-12M、大型 CC-3M、CC-12M、YFCC-15M、Recaption-1B など、さまざまなサイズのデータセットを使用して微調整実験を実施しました。 。結果は、LLM2CLIP を使用してトレーニングされたモデルが、画像からテキストへの検索タスクおよびテキストから画像への検索タスクにおいて、従来の CLIP モデルや EVA モデルよりも優れたパフォーマンスを発揮することを示しています。
マルチモーダル トレーニング用に Llava1.5 などのモデルと組み合わせることで、LLM2CLIP はほぼすべてのベンチマーク テストで良好なパフォーマンスを示し、特に長文および短文の検索タスクを処理する場合に優れ、以前の EVA02 モデルのパフォーマンスが 16.5% 向上しました。この革新的なアプローチは、CLIP を単なる英語データの処理から強力な言語間モデルに変換するだけでなく、CLIP トレーニングに関する将来の研究の基礎も築きます。
モデル: https://huggingface.co/collections/microsoft/llm2clip-672323a266173cfa40b32d4c
コード: https://github.com/microsoft/LLM2CLIP/
論文: https://arxiv.org/abs/2411.04997
LLM2CLIP の出現は、マルチモーダル モデルの開発に新しい方向性をもたらし、長いテキストや言語を越えたタスクの処理における画期的な進歩は注目に値します。 詳細については、記事内にあるリンクをご覧ください。 今後、LLM2CLIP をベースにしたアプリケーションがさらに登場することを楽しみにしています。