此儲存庫包含 MagicLens 的實作。這裡的程式碼使用 Jax 和 Flax。請注意,目前的實現尚不支持培訓。請參閱網站以取得資料集範例。
我們介紹 MagicLens,這是一系列支援開放式指令的自監督影像檢索模型。 MagicLens 的核心論點是文字指令可以檢索具有超越視覺相似性的更豐富關係的圖像。 MagicLens 建立在一個關鍵的新穎見解之上:自然出現在同一網頁上的圖像對包含廣泛的隱式關係(例如,內部視圖),我們可以透過大型多模態模型合成指令來使這些隱式關係變得明確( LMM)和大型語言模型(LLM)。 MagicLens 使用從網絡挖掘的具有豐富語義關係的3670 萬個(查詢圖像、指令、目標圖像)三元組進行訓練,在各種圖像檢索任務的八個基准上取得了與現有最先進( SOTA) 方法相當或更好的結果。值得注意的是,它的性能優於之前的 SOTA,但在多個基準測試中模型尺寸縮小了 50 倍。對 140 萬張未見過的圖像語料庫進行的額外人工分析進一步證明了 MagicLens 支持的搜尋意圖的多樣性。
conda create --name magic_lens python=3.9 conda activate magic_lens git clone https://github.com/google-research/scenic.git cd scenic pip install . pip install -r scenic/projects/baselines/clip/requirements.txt # you may need to install corresponding GPU version of jax following https://jax.readthedocs.io/en/latest/installation.html # e.g., # # CUDA 12 installation # Note: wheels only available on linux. # pip install --upgrade "jax[cuda12_pip]" -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html # # CUDA 11 installation # Note: wheels only available on linux. # pip install --upgrade "jax[cuda11_pip]" -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html
透過以下方式下載模型:
cd .. # in main folder `magiclens` # you may need to use `gcloud auth login` for access, any gmail account should work. gsutil cp -R gs://gresearch/magiclens/models ./
或透過谷歌驅動器
請關注./data
中的每個資料集資料夾。目前我們已經成功測試了FIQ、CIRCO、DTIN:
python inference.py --model_size large --model_path ./models/magic_lens_clip_large.pkl --dataset circo
由於權重換算,性能可能會略有不同:
在CIRCO
模型 | 地圖@5 | 地圖@10 | 地圖@25 | 地圖@50 |
---|---|---|---|---|
之前的 SOTA | 26.8 | 27.6 | 30.0 | 31.0 |
底座(原件) | 23.1 | 23.8 | 25.8 | 26.7 |
基礎(轉換後) | 22.3 | 23.2 | 25.0 | 26.0 |
大號(原件) | 29.6 | 30.8 | 33.4 | 34.4 |
大(轉換後) | 29.5 | 30.8 | 33.2 | 34.3 |
在此處添加引用詳細信息,通常是可貼上的 BibTeX 片段:
@inproceedings{zhang2024magiclens, title = {{M}agic{L}ens:具有開放式指令的自監督影像擷取}, 作者 = {張、凱和欒、易和胡、何翔和李、肯頓和喬、思源和陳、文虎和蘇、於和張、明偉}, booktitle = {第41屆國際機器學習會議論文集}, 頁數 = {59403--59420}, 年 = {2024}, 編輯 = {Salakhutdinov、Ruslan 和 Kolter、Zico 和 Heller、Katherine 和 Weller、Adrian 和 Oliver、Nuria 和 Scarlett、Jonathan 和 Berkenkamp、Felix}, 體積 = {235}, 系列={機器學習研究論文集}, 月份 = {7 月 21--27 日}, 發布者 = {PMLR}, 網址 = {https://proceedings.mlr.press/v235/zhang24an.html} }
版權所有 2024 DeepMind 技術有限公司
所有軟體均根據 Apache 授權 2.0 版 (Apache 2.0) 授權;除非遵守 Apache 2.0 許可證,否則您不得使用此文件。您可以在以下位置取得 Apache 2.0 授權的副本:https://www.apache.org/licenses/LICENSE-2.0
所有其他資料均根據知識共享署名 4.0 國際授權 (CC-BY) 授權。您可以透過以下網址取得 CC-BY 授權副本:https://creativecommons.org/licenses/by/4.0/legalcode
除非適用法律要求或書面同意,否則此處根據 Apache 2.0 或 CC-BY 授權分發的所有軟體和資料均以「原樣」分發,不帶任何明示或暗示的保證或條件。請參閱特定語言的許可證,以了解這些許可證下的權限和限制。
這不是 Google 官方產品。