Dieses Repo enthält die Implementierung von MagicLens. Der Code hier verwendet Jax und Flax. Beachten Sie, dass die aktuelle Implementierung noch kein Training unterstützt. Beispiele für Datensätze finden Sie auf der Website.
Wir stellen MagicLens vor, eine Reihe selbstüberwachter Bildabrufmodelle, die offene Anweisungen unterstützen. Die Kernthese von MagicLens besteht darin, dass Textanweisungen das Abrufen von Bildern mit umfassenderen Beziehungen über die visuelle Ähnlichkeit hinaus ermöglichen können. MagicLens basiert auf einer wichtigen neuen Erkenntnis: Bildpaare, die natürlicherweise auf denselben Webseiten vorkommen, enthalten eine breite Palette impliziter Beziehungen (z. B. Innenansicht von), und wir können diese impliziten Beziehungen explizit machen, indem wir Anweisungen über große multimodale Modelle synthetisieren ( LMMs) und Large Language Models (LLMs). MagicLens wurde auf 36,7 Mio. (Abfragebild, Anweisung, Zielbild) Triplets mit umfangreichen semantischen Beziehungen trainiert, die aus dem Web abgerufen wurden, und erzielt bei acht Benchmarks verschiedener Bildabrufaufgaben vergleichbare oder bessere Ergebnisse als frühere Methoden des Stands der Technik (SOTA). . Bemerkenswerterweise übertrifft es frühere SOTA-Modelle, allerdings mit einer 50-mal kleineren Modellgröße bei mehreren Benchmarks. Zusätzliche menschliche Analysen an einem ungesehenen 1,4-Millionen-Bilder-Korpus veranschaulichen die Vielfalt der von MagicLens unterstützten Suchabsichten.
conda create --name magic_lens python=3.9
conda activate magic_lens
git clone https://github.com/google-research/scenic.git
cd scenic
pip install .
pip install -r scenic/projects/baselines/clip/requirements.txt
# you may need to install corresponding GPU version of jax following https://jax.readthedocs.io/en/latest/installation.html
# e.g.,
# # CUDA 12 installation
# Note: wheels only available on linux.
# pip install --upgrade "jax[cuda12_pip]" -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html
# # CUDA 11 installation
# Note: wheels only available on linux.
# pip install --upgrade "jax[cuda11_pip]" -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html
Modell herunterladen über:
cd .. # in main folder `magiclens`
# you may need to use `gcloud auth login` for access, any gmail account should work.
gsutil cp -R gs://gresearch/magiclens/models ./
ODER über Google Drive
Bitte folgen Sie jedem Datensatzordner in ./data
. Derzeit haben wir FIQ, CIRCO und DTIN erfolgreich getestet:
python inference.py
--model_size large
--model_path ./models/magic_lens_clip_large.pkl
--dataset circo
Aufgrund der Gewichtsumrechnung kann die Leistung leicht abweichen:
Im CIRCO
Modell | Karte@5 | Karte@10 | Karte@25 | Karte@50 |
---|---|---|---|---|
Vor SOTA | 26.8 | 27.6 | 30.0 | 31.0 |
Basis (original) | 23.1 | 23.8 | 25.8 | 26.7 |
Basis (umgerechnet) | 22.3 | 23.2 | 25.0 | 26.0 |
Groß (Original) | 29.6 | 30.8 | 33.4 | 34.4 |
Groß (umgebaut) | 29.5 | 30.8 | 33.2 | 34.3 |
Fügen Sie hier Zitatdetails hinzu, normalerweise ein einfügbares BibTeX-Snippet:
@inproceedings{zhang2024magiclens,
title = {{M}agic{L}ens: Self-Supervised Image Retrieval with Open-Ended Instructions},
author = {Zhang, Kai and Luan, Yi and Hu, Hexiang and Lee, Kenton and Qiao, Siyuan and Chen, Wenhu and Su, Yu and Chang, Ming-Wei},
booktitle = {Proceedings of the 41st International Conference on Machine Learning},
pages = {59403--59420},
year = {2024},
editor = {Salakhutdinov, Ruslan and Kolter, Zico and Heller, Katherine and Weller, Adrian and Oliver, Nuria and Scarlett, Jonathan and Berkenkamp, Felix},
volume = {235},
series = {Proceedings of Machine Learning Research},
month = {21--27 Jul},
publisher = {PMLR},
url = {https://proceedings.mlr.press/v235/zhang24an.html}
}
Copyright 2024 DeepMind Technologies Limited
Die gesamte Software ist unter der Apache-Lizenz, Version 2.0 (Apache 2.0), lizenziert. Sie dürfen diese Datei nur in Übereinstimmung mit der Apache 2.0-Lizenz verwenden. Eine Kopie der Apache 2.0-Lizenz erhalten Sie unter: https://www.apache.org/licenses/LICENSE-2.0
Alle anderen Materialien sind unter der Creative Commons Attribution 4.0 International License (CC-BY) lizenziert. Eine Kopie der CC-BY-Lizenz erhalten Sie unter: https://creativecommons.org/licenses/by/4.0/legalcode
Sofern nicht durch geltendes Recht vorgeschrieben oder schriftlich vereinbart, werden alle hier unter der Apache 2.0- oder CC-BY-Lizenz vertriebenen Software und Materialien „WIE BESEHEN“ und OHNE GEWÄHRLEISTUNGEN ODER BEDINGUNGEN JEGLICHER ART, weder ausdrücklich noch stillschweigend, verteilt. Sehen Sie sich die Lizenzen für die spezifische Sprache an, die die Berechtigungen und Einschränkungen dieser Lizenzen regelt.
Dies ist kein offizielles Google-Produkt.