Dieses Repo enthält die Implementierung von MagicLens. Der Code hier verwendet Jax und Flax. Beachten Sie, dass die aktuelle Implementierung noch kein Training unterstützt. Beispiele für Datensätze finden Sie auf der Website.
Wir stellen MagicLens vor, eine Reihe selbstüberwachter Bildabrufmodelle, die offene Anweisungen unterstützen. Die Kernthese von MagicLens besteht darin, dass Textanweisungen das Abrufen von Bildern mit umfassenderen Beziehungen über die visuelle Ähnlichkeit hinaus ermöglichen können. MagicLens basiert auf einer wichtigen neuen Erkenntnis: Bildpaare, die natürlicherweise auf denselben Webseiten vorkommen, enthalten eine breite Palette impliziter Beziehungen (z. B. Innenansicht von), und wir können diese impliziten Beziehungen explizit machen, indem wir Anweisungen über große multimodale Modelle synthetisieren ( LMMs) und Large Language Models (LLMs). MagicLens wurde auf 36,7 Mio. (Abfragebild, Anweisung, Zielbild) Triplets mit umfangreichen semantischen Beziehungen trainiert, die aus dem Web abgerufen wurden, und erzielt bei acht Benchmarks verschiedener Bildabrufaufgaben vergleichbare oder bessere Ergebnisse als frühere State-of-the-Art-Methoden (SOTA). . Bemerkenswerterweise übertrifft es frühere SOTA-Modelle, allerdings mit einer 50-mal kleineren Modellgröße bei mehreren Benchmarks. Zusätzliche menschliche Analysen an einem ungesehenen 1,4-Millionen-Bilder-Korpus veranschaulichen die Vielfalt der von MagicLens unterstützten Suchabsichten.
conda create --name magic_lens python=3.9 conda activate magic_lens git clone https://github.com/google-research/scenic.git cd scenic pip install . pip install -r scenic/projects/baselines/clip/requirements.txt # you may need to install corresponding GPU version of jax following https://jax.readthedocs.io/en/latest/installation.html # e.g., # # CUDA 12 installation # Note: wheels only available on linux. # pip install --upgrade "jax[cuda12_pip]" -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html # # CUDA 11 installation # Note: wheels only available on linux. # pip install --upgrade "jax[cuda11_pip]" -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html
Modell herunterladen über:
cd .. # in main folder `magiclens` # you may need to use `gcloud auth login` for access, any gmail account should work. gsutil cp -R gs://gresearch/magiclens/models ./
ODER über Google Drive
Bitte folgen Sie jedem Datensatzordner in ./data
. Derzeit haben wir FIQ, CIRCO und DTIN erfolgreich getestet:
python inference.py --model_size large --model_path ./models/magic_lens_clip_large.pkl --dataset circo
Aufgrund der Gewichtsumrechnung kann die Leistung leicht abweichen:
Im CIRCO
Modell | Karte@5 | Karte@10 | Karte@25 | Karte@50 |
---|---|---|---|---|
Vorheriges SOTA | 26.8 | 27.6 | 30.0 | 31.0 |
Basis (original) | 23.1 | 23.8 | 25.8 | 26.7 |
Basis (umgerechnet) | 22.3 | 23.2 | 25.0 | 26.0 |
Groß (original) | 29.6 | 30.8 | 33.4 | 34.4 |
Groß (umgebaut) | 29.5 | 30.8 | 33.2 | 34.3 |
Fügen Sie hier Zitatdetails hinzu, normalerweise ein einfügbares BibTeX-Snippet:
@inproceedings{zhang2024magiclens, title = {{M}agic{L}ens: Selbstüberwachter Bildabruf mit offenen Anweisungen}, Autor = {Zhang, Kai und Luan, Yi und Hu, Hexiang und Lee, Kenton und Qiao, Siyuan und Chen, Wenhu und Su, Yu und Chang, Ming-Wei}, booktitle = {Proceedings of the 41st International Conference on Machine Learning}, Seiten = {59403--59420}, Jahr = {2024}, Herausgeber = {Salakhutdinov, Ruslan und Kolter, Zico und Heller, Katherine und Weller, Adrian und Oliver, Nuria und Scarlett, Jonathan und Berkenkamp, Felix}, Volumen = {235}, Reihe = {Proceedings of Machine Learning Research}, Monat = {21.–27. Juli}, Herausgeber = {PMLR}, URL = {https://proceedings.mlr.press/v235/zhang24an.html} }
Copyright 2024 DeepMind Technologies Limited
Die gesamte Software ist unter der Apache-Lizenz, Version 2.0 (Apache 2.0), lizenziert. Sie dürfen diese Datei nur in Übereinstimmung mit der Apache 2.0-Lizenz verwenden. Eine Kopie der Apache 2.0-Lizenz erhalten Sie unter: https://www.apache.org/licenses/LICENSE-2.0
Alle anderen Materialien sind unter der Creative Commons Attribution 4.0 International License (CC-BY) lizenziert. Eine Kopie der CC-BY-Lizenz erhalten Sie unter: https://creativecommons.org/licenses/by/4.0/legalcode
Sofern nicht gesetzlich vorgeschrieben oder schriftlich vereinbart, werden alle hier unter den Apache 2.0- oder CC-BY-Lizenzen vertriebenen Software und Materialien „WIE BESEHEN“ und OHNE GEWÄHRLEISTUNGEN ODER BEDINGUNGEN JEGLICHER ART, weder ausdrücklich noch stillschweigend, verteilt. Sehen Sie sich die Lizenzen für die spezifische Sprache an, die die Berechtigungen und Einschränkungen unter diesen Lizenzen regelt.
Dies ist kein offizielles Google-Produkt.