magiclens下載 - magiclens原始碼下載

magiclens

其他源碼

下載

魔鏡

此儲存庫包含 MagicLens 的實作。這裡的程式碼使用 Jax 和 Flax。請注意，目前的實現尚不支持培訓。請參閱網站以取得資料集範例。

抽象的

我們介紹 MagicLens，這是一系列支援開放式指令的自監督影像檢索模型。 MagicLens 的核心論點是文字指令可以檢索具有超越視覺相似性的更豐富關係的圖像。 MagicLens 建立在一個關鍵的新穎見解之上：自然出現在同一網頁上的圖像對包含廣泛的隱式關係（例如，內部視圖），我們可以透過大型多模態模型合成指令來使這些隱式關係變得明確（ LMM）和大型語言模型（LLM）。 MagicLens 使用從網絡挖掘的具有豐富語義關係的3670 萬個（查詢圖像、指令、目標圖像）三元組進行訓練，在各種圖像檢索任務的八個基准上取得了與現有最先進( SOTA) 方法相當或更好的結果。值得注意的是，它的性能優於之前的 SOTA，但在多個基準測試中模型尺寸縮小了 50 倍。對 140 萬張未見過的圖像語料庫進行的額外人工分析進一步證明了 MagicLens 支持的搜尋意圖的多樣性。

設定

conda create --name magic_lens python=3.9
conda activate magic_lens
git clone https://github.com/google-research/scenic.git
cd scenic
pip install .
pip install -r scenic/projects/baselines/clip/requirements.txt
# you may need to install corresponding GPU version of jax following https://jax.readthedocs.io/en/latest/installation.html
# e.g.,
# # CUDA 12 installation
# Note: wheels only available on linux.
# pip install --upgrade "jax[cuda12_pip]" -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html

# # CUDA 11 installation
# Note: wheels only available on linux.
# pip install --upgrade "jax[cuda11_pip]" -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html

型號下載

透過以下方式下載模型：

cd .. # in main folder `magiclens`
# you may need to use `gcloud auth login` for access, any gmail account should work.
gsutil cp -R gs://gresearch/magiclens/models ./

或透過谷歌驅動器

資料準備

請關注./data中的每個資料集資料夾。目前我們已經成功測試了FIQ、CIRCO、DTIN：

推理

python inference.py 
--model_size large 
--model_path ./models/magic_lens_clip_large.pkl 
--dataset circo

由於權重換算，性能可能會略有不同：

在CIRCO

模型	地圖@5	地圖@10	地圖@25	地圖@50
之前的 SOTA	26.8	27.6	30.0	31.0
底座（原件）	23.1	23.8	25.8	26.7
基礎（轉換後）	22.3	23.2	25.0	26.0
大號（原件）	29.6	30.8	33.4	34.4
大（轉換後）	29.5	30.8	33.2	34.3

引用這篇作品

在此處添加引用詳細信息，通常是可貼上的 BibTeX 片段：

 @inproceedings{zhang2024magiclens,
  title = {{M}agic{L}ens：具有開放式指令的自監督影像擷取}，
  作者 = {張、凱和欒、易和胡、何翔和李、肯頓和喬、思源和陳、文虎和蘇、於和張、明偉},
  booktitle = {第41屆國際機器學習會議論文集}，
  頁數 = {59403--59420}，
  年 = {2024}，
  編輯 = {Salakhutdinov、Ruslan 和 Kolter、Zico 和 Heller、Katherine 和 Weller、Adrian 和 Oliver、Nuria 和 Scarlett、Jonathan 和 Berkenkamp、Felix}，
  體積 = {235}，
  系列={機器學習研究論文集}，
  月份 = {7 月 21--27 日}，
  發布者 = {PMLR}，
  網址 = {https://proceedings.mlr.press/v235/zhang24an.html}
}