يحتوي هذا الريبو على تطبيق MagicLens. يستخدم الكود هنا Jax وFlax. لاحظ أن التنفيذ الحالي لا يدعم التدريب بعد. الرجوع إلى الموقع للحصول على أمثلة مجموعة البيانات.
نقدم لكم MagicLens، وهي سلسلة من نماذج استرجاع الصور ذاتية الإشراف والتي تدعم التعليمات المفتوحة. تتمثل الأطروحة الأساسية لـ MagicLens في أن التعليمات النصية يمكن أن تتيح استرجاع الصور بعلاقات أكثر ثراءً تتجاوز التشابه البصري. تم بناء MagicLens على رؤية جديدة رئيسية: تحتوي أزواج الصور التي تحدث بشكل طبيعي على نفس صفحات الويب على نطاق واسع من العلاقات الضمنية (على سبيل المثال، العرض الداخلي لـ)، ويمكننا جعل تلك العلاقات الضمنية واضحة من خلال تجميع التعليمات عبر نماذج كبيرة متعددة الوسائط ( LMMs) ونماذج اللغة الكبيرة (LLMs). تم تدريب MagicLens على 36.7 مليونًا (صورة استعلام، تعليمات، صورة مستهدفة) ثلاثية مع علاقات دلالية غنية مستخرجة من الويب، وتحقق نتائج مماثلة أو أفضل في ثمانية معايير لمهام استرجاع الصور المختلفة مقارنة بالطرق الحديثة (SOTA) السابقة . ومن اللافت للنظر أنه يتفوق على SOTA السابق ولكن بحجم نموذج أصغر بمقدار 50 × وفقًا لمعايير متعددة. تُظهر التحليلات البشرية الإضافية على مجموعة غير مرئية بحجم 1.4 مليون صورة تنوع أهداف البحث التي تدعمها MagicLens.
conda create --name magic_lens python=3.9
conda activate magic_lens
git clone https://github.com/google-research/scenic.git
cd scenic
pip install .
pip install -r scenic/projects/baselines/clip/requirements.txt
# you may need to install corresponding GPU version of jax following https://jax.readthedocs.io/en/latest/installation.html
# e.g.,
# # CUDA 12 installation
# Note: wheels only available on linux.
# pip install --upgrade "jax[cuda12_pip]" -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html
# # CUDA 11 installation
# Note: wheels only available on linux.
# pip install --upgrade "jax[cuda11_pip]" -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html
تحميل النموذج عبر:
cd .. # in main folder `magiclens`
# you may need to use `gcloud auth login` for access, any gmail account should work.
gsutil cp -R gs://gresearch/magiclens/models ./
أو عبر جوجل درايف
يرجى اتباع كل مجلد مجموعة بيانات في ./data
. لقد نجحنا حاليًا في اختبار FIQ وCIRCO وDTIN:
python inference.py
--model_size large
--model_path ./models/magic_lens_clip_large.pkl
--dataset circo
بسبب تحويل الوزن، قد يختلف الأداء قليلاً:
في CIRCO
نموذج | الخريطة@5 | الخريطة@10 | الخريطة@25 | خريطة@50 |
---|---|---|---|---|
سوتا السابقة | 26.8 | 27.6 | 30.0 | 31.0 |
قاعدة (أصلية) | 23.1 | 23.8 | 25.8 | 26.7 |
القاعدة (المحولة) | 22.3 | 23.2 | 25.0 | 26.0 |
كبير (أصلي) | 29.6 | 30.8 | 33.4 | 34.4 |
كبير (محول) | 29.5 | 30.8 | 33.2 | 34.3 |
أضف تفاصيل الاقتباس هنا، عادةً ما يكون مقتطف BibTeX قابلاً لللصق:
@inproceedings{zhang2024magiclens,
title = {{M}agic{L}ens: Self-Supervised Image Retrieval with Open-Ended Instructions},
author = {Zhang, Kai and Luan, Yi and Hu, Hexiang and Lee, Kenton and Qiao, Siyuan and Chen, Wenhu and Su, Yu and Chang, Ming-Wei},
booktitle = {Proceedings of the 41st International Conference on Machine Learning},
pages = {59403--59420},
year = {2024},
editor = {Salakhutdinov, Ruslan and Kolter, Zico and Heller, Katherine and Weller, Adrian and Oliver, Nuria and Scarlett, Jonathan and Berkenkamp, Felix},
volume = {235},
series = {Proceedings of Machine Learning Research},
month = {21--27 Jul},
publisher = {PMLR},
url = {https://proceedings.mlr.press/v235/zhang24an.html}
}
حقوق الطبع والنشر لعام 2024 محفوظة لشركة DeepMind Technologies Limited
جميع البرامج مرخصة بموجب ترخيص Apache، الإصدار 2.0 (Apache 2.0)؛ لا يجوز لك استخدام هذا الملف إلا وفقًا لترخيص Apache 2.0. يمكنك الحصول على نسخة من ترخيص Apache 2.0 على: https://www.apache.org/licenses/LICENSE-2.0
جميع المواد الأخرى مرخصة بموجب ترخيص المشاع الإبداعي الدولي 4.0 (CC-BY). يمكنك الحصول على نسخة من ترخيص CC-BY على: https://creativecommons.org/licenses/by/4.0/legalcode
ما لم يكن ذلك مطلوبًا بموجب القانون المعمول به أو تم الاتفاق عليه كتابيًا، يتم توزيع جميع البرامج والمواد الموزعة هنا بموجب تراخيص Apache 2.0 أو CC-BY على أساس "كما هي"، دون ضمانات أو شروط من أي نوع، سواء كانت صريحة أو ضمنية. راجع تراخيص اللغة المحددة التي تحكم الأذونات والقيود بموجب تلك التراخيص.
هذا ليس أحد منتجات Google الرسمية.