Repo ini berisi implementasi MagicLens. Kode disini menggunakan Jax dan Flax. Perlu diperhatikan bahwa implementasi saat ini belum mendukung pelatihan. Lihat situs web untuk contoh kumpulan data.
Kami memperkenalkan MagicLens, serangkaian model pengambilan gambar dengan pengawasan mandiri yang mendukung instruksi terbuka. Tesis inti dari MagicLens adalah bahwa instruksi teks dapat memungkinkan pengambilan gambar dengan hubungan yang lebih kaya di luar kesamaan visual. MagicLens dibangun berdasarkan wawasan baru yang penting: pasangan gambar yang secara alami muncul di halaman web yang sama berisi berbagai hubungan implisit (misalnya, tampilan dalam), dan kita dapat membuat hubungan implisit tersebut menjadi eksplisit dengan mensintesis instruksi melalui model multimodal besar ( LMM) dan model bahasa besar (LLM). Dilatih pada triplet 36,7 juta (gambar kueri, instruksi, gambar target) dengan hubungan semantik kaya yang ditambang dari web, MagicLens mencapai hasil yang sebanding atau lebih baik pada delapan tolok ukur berbagai tugas pengambilan gambar dibandingkan metode canggih (SOTA) sebelumnya. . Hebatnya, performanya mengungguli SOTA sebelumnya tetapi dengan ukuran model 50× lebih kecil di berbagai tolok ukur. Analisis manusia tambahan pada korpus gambar 1,4 juta yang tidak terlihat semakin menunjukkan keragaman maksud pencarian yang didukung oleh MagicLens.
conda create --name magic_lens python=3.9
conda activate magic_lens
git clone https://github.com/google-research/scenic.git
cd scenic
pip install .
pip install -r scenic/projects/baselines/clip/requirements.txt
# you may need to install corresponding GPU version of jax following https://jax.readthedocs.io/en/latest/installation.html
# e.g.,
# # CUDA 12 installation
# Note: wheels only available on linux.
# pip install --upgrade "jax[cuda12_pip]" -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html
# # CUDA 11 installation
# Note: wheels only available on linux.
# pip install --upgrade "jax[cuda11_pip]" -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html
Unduh model melalui:
cd .. # in main folder `magiclens`
# you may need to use `gcloud auth login` for access, any gmail account should work.
gsutil cp -R gs://gresearch/magiclens/models ./
ATAU melalui Google Drive
Silakan ikuti setiap folder kumpulan data di ./data
. Saat ini kami telah berhasil menguji FIQ, CIRCO, dan DTIN:
python inference.py
--model_size large
--model_path ./models/magic_lens_clip_large.pkl
--dataset circo
Karena konversi berat, performanya mungkin sedikit berbeda:
Di CIRCO
Model | peta@5 | peta@10 | peta@25 | peta@50 |
---|---|---|---|---|
SOTA sebelumnya | 26.8 | 27.6 | 30.0 | 31.0 |
Dasar (asli) | 23.1 | 23.8 | 25.8 | 26.7 |
Basis (dikonversi) | 22.3 | 23.2 | 25.0 | 26.0 |
Besar (asli) | 29.6 | 30.8 | 33.4 | 34.4 |
Besar (dikonversi) | 29.5 | 30.8 | 33.2 | 34.3 |
Tambahkan detail kutipan di sini, biasanya cuplikan BibTeX yang dapat ditempel:
@inproceedings{zhang2024magiclens,
title = {{M}agic{L}ens: Self-Supervised Image Retrieval with Open-Ended Instructions},
author = {Zhang, Kai and Luan, Yi and Hu, Hexiang and Lee, Kenton and Qiao, Siyuan and Chen, Wenhu and Su, Yu and Chang, Ming-Wei},
booktitle = {Proceedings of the 41st International Conference on Machine Learning},
pages = {59403--59420},
year = {2024},
editor = {Salakhutdinov, Ruslan and Kolter, Zico and Heller, Katherine and Weller, Adrian and Oliver, Nuria and Scarlett, Jonathan and Berkenkamp, Felix},
volume = {235},
series = {Proceedings of Machine Learning Research},
month = {21--27 Jul},
publisher = {PMLR},
url = {https://proceedings.mlr.press/v235/zhang24an.html}
}
Hak Cipta 2024 DeepMind Technologies Limited
Semua perangkat lunak dilisensikan di bawah Lisensi Apache, Versi 2.0 (Apache 2.0); Anda tidak boleh menggunakan file ini kecuali sesuai dengan lisensi Apache 2.0. Anda dapat memperoleh salinan lisensi Apache 2.0 di: https://www.apache.org/licenses/LICENSE-2.0
Semua materi lainnya dilisensikan di bawah Lisensi Internasional Creative Commons Attribution 4.0 (CC-BY). Anda dapat memperoleh salinan lisensi CC-BY di: https://creativecommons.org/licenses/by/4.0/legalcode
Kecuali diwajibkan oleh hukum yang berlaku atau disetujui secara tertulis, semua perangkat lunak dan materi yang didistribusikan di sini di bawah lisensi Apache 2.0 atau CC-BY didistribusikan berdasarkan DASAR "APA ADANYA", TANPA JAMINAN ATAU KETENTUAN DALAM BENTUK APAPUN, baik tersurat maupun tersirat. Lihat lisensi untuk bahasa tertentu yang mengatur izin dan batasan berdasarkan lisensi tersebut.
Ini bukan produk resmi Google.