magiclens下载 - magiclens源代码下载

magiclens

其他源码

下载

魔镜

该存储库包含 MagicLens 的实现。这里的代码使用 Jax 和 Flax。请注意，当前的实现尚不支持培训。请参阅网站以获取数据集示例。

抽象的

我们介绍 MagicLens，这是一系列支持开放式指令的自监督图像检索模型。 MagicLens 的核心论点是文本指令可以检索具有超越视觉相似性的更丰富关系的图像。 MagicLens 建立在一个关键的新颖见解之上：自然出现在同一网页上的图像对包含广泛的隐式关系（例如，内部视图），我们可以通过大型多模态模型合成指令来使这些隐式关系变得明确（ LMM）和大型语言模型（LLM）。 MagicLens 使用从网络挖掘的具有丰富语义关系的 3670 万个（查询图像、指令、目标图像）三元组进行训练，在各种图像检索任务的八个基准上取得了与现有最先进 (SOTA) 方法相当或更好的结果。值得注意的是，它的性能优于之前的 SOTA，但在多个基准测试中模型尺寸缩小了 50 倍。对 140 万张未见过的图像语料库进行的额外人工分析进一步证明了 MagicLens 支持的搜索意图的多样性。

设置

conda create --name magic_lens python=3.9
conda activate magic_lens
git clone https://github.com/google-research/scenic.git
cd scenic
pip install .
pip install -r scenic/projects/baselines/clip/requirements.txt
# you may need to install corresponding GPU version of jax following https://jax.readthedocs.io/en/latest/installation.html
# e.g.,
# # CUDA 12 installation
# Note: wheels only available on linux.
# pip install --upgrade "jax[cuda12_pip]" -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html

# # CUDA 11 installation
# Note: wheels only available on linux.
# pip install --upgrade "jax[cuda11_pip]" -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html

型号下载

通过以下方式下载模型：

cd .. # in main folder `magiclens`
# you may need to use `gcloud auth login` for access, any gmail account should work.
gsutil cp -R gs://gresearch/magiclens/models ./

或者通过谷歌驱动器

数据准备

请关注./data中的每个数据集文件夹。目前我们已经成功测试了FIQ、CIRCO、DTIN：

推理

python inference.py 
--model_size large 
--model_path ./models/magic_lens_clip_large.pkl 
--dataset circo

由于权重换算，性能可能会略有不同：

在CIRCO

模型	地图@5	地图@10	地图@25	地图@50
之前的 SOTA	26.8	27.6	30.0	31.0
底座（原件）	23.1	23.8	25.8	26.7
基础（转换后）	22.3	23.2	25.0	26.0
大号（原件）	29.6	30.8	33.4	34.4
大（转换后）	29.5	30.8	33.2	34.3

引用这篇作品

在此处添加引用详细信息，通常是可粘贴的 BibTeX 片段：

 @inproceedings{zhang2024magiclens,
  title = {{M}agic{L}ens：具有开放式指令的自监督图像检索}，
  作者 = {张、凯和栾、易和胡、何翔和李、肯顿和乔、思源和陈、文虎和苏、于和张、明伟},
  booktitle = {第41届国际机器学习会议论文集}，
  页数 = {59403--59420}，
  年 = {2024}，
  编辑 = {Salakhutdinov、Ruslan 和 Kolter、Zico 和 Heller、Katherine 和 Weller、Adrian 和 Oliver、Nuria 和 Scarlett、Jonathan 和 Berkenkamp、Felix}，
  体积 = {235}，
  系列={机器学习研究论文集}，
  月份 = {7 月 21--27 日}，
  发布者 = {PMLR}，
  网址 = {https://proceedings.mlr.press/v235/zhang24an.html}
}