このリポジトリには、MagicLens の実装が含まれています。ここのコードでは Jax と Flax を使用しています。現在の実装ではトレーニングがまだサポートされていないことに注意してください。データセットの例については、Web サイトを参照してください。
オープンエンド命令をサポートする一連の自己教師あり画像検索モデルである MagicLens を紹介します。 MagicLens の中核となるテーマは、テキスト命令により、視覚的な類似性を超えたより豊かな関係を持つ画像を取得できるようになることです。 MagicLens は、重要な新しい洞察に基づいて構築されています。同じ Web ページ上に自然に出現する画像のペアには、広範な暗黙の関係 (例: の内部ビュー) が含まれており、大規模なマルチモーダル モデル ( LMM)とラージ言語モデル(LLM)。 Web からマイニングされた豊富な意味関係を持つ 3,670 万個のトリプレット (クエリ画像、命令、ターゲット画像) でトレーニングされた MagicLens は、さまざまな画像検索タスクの 8 つのベンチマークで、従来の最先端 (SOTA) 手法と同等以上の結果を達成します。 。驚くべきことに、これは以前の SOTA よりも優れたパフォーマンスを示しますが、複数のベンチマークでモデル サイズが 50 分の 1 に小さくなっています。 140 万枚の画像の未見のコーパスに対する人間による追加分析により、MagicLens によってサポートされる検索意図の多様性がさらに実証されました。
conda create --name magic_lens python=3.9 conda activate magic_lens git clone https://github.com/google-research/scenic.git cd scenic pip install . pip install -r scenic/projects/baselines/clip/requirements.txt # you may need to install corresponding GPU version of jax following https://jax.readthedocs.io/en/latest/installation.html # e.g., # # CUDA 12 installation # Note: wheels only available on linux. # pip install --upgrade "jax[cuda12_pip]" -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html # # CUDA 11 installation # Note: wheels only available on linux. # pip install --upgrade "jax[cuda11_pip]" -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html
次の方法でモデルをダウンロードします。
cd .. # in main folder `magiclens` # you may need to use `gcloud auth login` for access, any gmail account should work. gsutil cp -R gs://gresearch/magiclens/models ./
またはGoogleドライブ経由
./data
内の各データセット フォルダーをたどってください。現在、FIQ、CIRCO、DTIN のテストに成功しています。
python inference.py --model_size large --model_path ./models/magic_lens_clip_large.pkl --dataset circo
重量換算により、パフォーマンスが若干異なる場合があります。
CIRCO
にて
モデル | マップ@5 | マップ@10 | マップ@25 | マップ@50 |
---|---|---|---|---|
以前の SOTA | 26.8 | 27.6 | 30.0 | 31.0 |
ベース(オリジナル) | 23.1 | 23.8 | 25.8 | 26.7 |
ベース(変換後) | 22.3 | 23.2 | 25.0 | 26.0 |
大(オリジナル) | 29.6 | 30.8 | 33.4 | 34.4 |
大(換算) | 29.5 | 30.8 | 33.2 | 34.3 |
ここに引用の詳細を追加します。通常は貼り付け可能な BibTeX スニペットです。
@inproceedings{zhang2024magiclens、 title = {{M}agic{L}ens: 無制限の命令を使用した自己監視型画像検索}, 著者 = {Zhang、Kai と Luan、Yi と Hu、Hexiang と Lee、Kenton と Qiao、Siyuan と Chen、Wenhu と Su、Yu と Chang、Ming-Wei}、 booktitle = {第 41 回機械学習国際会議議事録}, ページ = {59403--59420}、 年 = {2024}、 編集者 = {サラフトディノフ、ルスランとコルター、ジーコとヘラー、キャサリンとウェラー、エイドリアンとオリバー、ヌリアとスカーレット、ジョナサンとバーケンカンプ、フェリックス}、 ボリューム = {235}、 シリーズ = {機械学習研究論文集}、 月 = {21--27 Jul}、 発行者 = {PMLR}、 URL = {https://proceedings.mlr.press/v235/zhang24an.html} }
Copyright 2024 DeepMind Technologies Limited
すべてのソフトウェアは、Apache License バージョン 2.0 (Apache 2.0) に基づいてライセンス供与されています。 Apache 2.0 ライセンスに準拠する場合を除き、このファイルを使用することはできません。 Apache 2.0 ライセンスのコピーは、https://www.apache.org/licenses/LICENSE-2.0 で入手できます。
他のすべての素材は、クリエイティブ コモンズ表示 4.0 国際ライセンス (CC-BY) に基づいてライセンスされています。 CC-BY ライセンスのコピーは、https://creativecommons.org/licenses/by/4.0/legalcode で入手できます。
適用される法律で要求される場合、または書面による同意がない限り、Apache 2.0 または CC-BY ライセンスに基づいてここで配布されるすべてのソフトウェアおよびマテリアルは、明示または黙示を問わず、いかなる種類の保証や条件もなく、「現状のまま」で配布されます。ライセンスに基づく許可と制限を規定する特定の言語のライセンスを参照してください。
これは Google の公式製品ではありません。