Repo นี้ประกอบด้วยการใช้งาน MagicLens รหัสที่นี่ใช้ Jax และ Flax โปรดทราบว่าการใช้งานปัจจุบันยังไม่รองรับการฝึกอบรม อ้างถึงเว็บไซต์สำหรับตัวอย่างชุดข้อมูล
เราขอแนะนำ MagicLens ซึ่งเป็นซีรีส์โมเดลการดึงรูปภาพแบบควบคุมตัวเองที่รองรับคำสั่งปลายเปิด วิทยานิพนธ์หลักของ MagicLens ก็คือ คำสั่งข้อความสามารถดึงข้อมูลรูปภาพที่มีความสัมพันธ์ที่สมบูรณ์ยิ่งขึ้น นอกเหนือจากความคล้ายคลึงกันของการมองเห็น MagicLens สร้างขึ้นจากข้อมูลเชิงลึกที่สำคัญ: คู่รูปภาพที่เกิดขึ้นตามธรรมชาติบนหน้าเว็บเดียวกันนั้นมีความสัมพันธ์โดยปริยายที่หลากหลาย (เช่น มุมมองภายใน) และเราสามารถนำความสัมพันธ์โดยนัยเหล่านั้นออกมาอย่างชัดเจนโดยการสังเคราะห์คำสั่งผ่านแบบจำลองหลายรูปแบบขนาดใหญ่ ( LMM) และโมเดลภาษาขนาดใหญ่ (LLM) เมื่อฝึกฝนกับแฝด 36.7M (รูปภาพสืบค้น คำแนะนำ รูปภาพเป้าหมาย) ที่มีความสัมพันธ์เชิงความหมายที่หลากหลายซึ่งขุดจากเว็บ MagicLens บรรลุผลลัพธ์ที่เทียบเคียงหรือดีกว่าในการวัดประสิทธิภาพแปดเกณฑ์ของงานการเรียกค้นรูปภาพต่างๆ มากกว่าวิธีการล้ำสมัย (SOTA) ก่อนหน้านี้ . เป็นที่น่าสังเกตว่ามันมีประสิทธิภาพเหนือกว่า SOTA ก่อนหน้า แต่มีขนาดโมเดลที่เล็กกว่า 50× ในการวัดประสิทธิภาพหลายรายการ การวิเคราะห์โดยมนุษย์เพิ่มเติมเกี่ยวกับคลังภาพที่มองไม่เห็นขนาด 1.4 ล้านภาพ ยังแสดงให้เห็นถึงความหลากหลายของจุดประสงค์ในการค้นหาที่ MagicLens สนับสนุนอีกด้วย
conda create --name magic_lens python=3.9
conda activate magic_lens
git clone https://github.com/google-research/scenic.git
cd scenic
pip install .
pip install -r scenic/projects/baselines/clip/requirements.txt
# you may need to install corresponding GPU version of jax following https://jax.readthedocs.io/en/latest/installation.html
# e.g.,
# # CUDA 12 installation
# Note: wheels only available on linux.
# pip install --upgrade "jax[cuda12_pip]" -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html
# # CUDA 11 installation
# Note: wheels only available on linux.
# pip install --upgrade "jax[cuda11_pip]" -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html
ดาวน์โหลดโมเดลได้ที่:
cd .. # in main folder `magiclens`
# you may need to use `gcloud auth login` for access, any gmail account should work.
gsutil cp -R gs://gresearch/magiclens/models ./
หรือผ่าน Google Drive
โปรดติดตามแต่ละโฟลเดอร์ชุดข้อมูลใน ./data
data ขณะนี้เราได้ทดสอบ FIQ, CIRCO และ DTIN เรียบร้อยแล้ว:
python inference.py
--model_size large
--model_path ./models/magic_lens_clip_large.pkl
--dataset circo
เนื่องจากการแปลงน้ำหนัก ประสิทธิภาพอาจแตกต่างกันเล็กน้อย:
ใน CIRCO
แบบอย่าง | แผนที่@5 | แผนที่@10 | แผนที่@25 | แผนที่@50 |
---|---|---|---|---|
SOTA ก่อนหน้า | 26.8 | 27.6 | 30.0 | 31.0 |
ฐาน(เดิม) | 23.1 | 23.8 | 25.8 | 26.7 |
ฐาน (แปลงแล้ว) | 22.3 | 23.2 | 25.0 | 26.0 |
ใหญ่ (เดิม) | 29.6 | 30.8 | 33.4 | 34.4 |
ใหญ่ (แปลงแล้ว) | 29.5 | 30.8 | 33.2 | 34.3 |
เพิ่มรายละเอียดการอ้างอิงที่นี่ โดยปกติแล้วจะเป็นข้อมูลโค้ด BibTeX ที่วางได้:
@inproceedings{zhang2024magiclens,
title = {{M}agic{L}ens: Self-Supervised Image Retrieval with Open-Ended Instructions},
author = {Zhang, Kai and Luan, Yi and Hu, Hexiang and Lee, Kenton and Qiao, Siyuan and Chen, Wenhu and Su, Yu and Chang, Ming-Wei},
booktitle = {Proceedings of the 41st International Conference on Machine Learning},
pages = {59403--59420},
year = {2024},
editor = {Salakhutdinov, Ruslan and Kolter, Zico and Heller, Katherine and Weller, Adrian and Oliver, Nuria and Scarlett, Jonathan and Berkenkamp, Felix},
volume = {235},
series = {Proceedings of Machine Learning Research},
month = {21--27 Jul},
publisher = {PMLR},
url = {https://proceedings.mlr.press/v235/zhang24an.html}
}
ลิขสิทธิ์ 2024 DeepMind Technologies Limited
ซอฟต์แวร์ทั้งหมดได้รับอนุญาตภายใต้ Apache License เวอร์ชัน 2.0 (Apache 2.0) คุณไม่สามารถใช้ไฟล์นี้ได้เว้นแต่จะเป็นไปตามใบอนุญาต Apache 2.0 คุณสามารถขอรับสำเนาใบอนุญาต Apache 2.0 ได้ที่: https://www.apache.org/licenses/LICENSE-2.0
สื่ออื่นๆ ทั้งหมดได้รับอนุญาตภายใต้ Creative Commons Attribution 4.0 International License (CC-BY) คุณสามารถขอรับสำเนาใบอนุญาต CC-BY ได้ที่: https://creativecommons.org/licenses/by/4.0/legalcode
เว้นแต่กฎหมายที่บังคับใช้กำหนดไว้หรือตกลงเป็นลายลักษณ์อักษร ซอฟต์แวร์และเนื้อหาทั้งหมดที่เผยแพร่ที่นี่ภายใต้ใบอนุญาต Apache 2.0 หรือ CC-BY ได้รับการเผยแพร่ตาม "สภาพที่เป็นอยู่" โดยไม่มีการรับประกันหรือเงื่อนไขใดๆ ทั้งโดยชัดแจ้งหรือโดยนัย ดูใบอนุญาตสำหรับภาษาเฉพาะที่ควบคุมการอนุญาตและข้อจำกัดภายใต้ใบอนุญาตเหล่านั้น
นี่ไม่ใช่ผลิตภัณฑ์อย่างเป็นทางการของ Google