تنزيل VSA - تنزيل كود مصدر VSA

VSA

شفرة المصدر الأخرى

1.0.0

تنزيل

مساعد البحث عن الرؤية: تمكين نماذج لغة الرؤية كمحركات بحث متعددة الوسائط

[صفحة المشروع] [؟الورقة] [؟مساحة تعانق الوجه] [حديقة الحيوان النموذجية] [مقدمة] [؟فيديو]

؟ يطلق

[2024/10/29] أصدرنا الكود الخاص بالعرض التوضيحي المحلي.
[2024/10/29] تم إصدار Vision Search Assistant على arxiv.

يثبت

انسخ هذا المستودع وانتقل إلى مجلد VSA.

 git clone https://github.com/cnzzx/VSA.git
cd VSA

إنشاء بيئات كوندا.

 conda create -n vsa python=3.10
conda activate vsa

قم بتثبيت LLaVA.

 cd models/LLaVA
pip install -e .

تثبيت المتطلبات الأخرى.

 pip install -r requirements.txt

التجريبي المحلي

يعتمد العرض التوضيحي المحلي على التدرج، ويمكنك ببساطة تشغيله باستخدام:

 python app.py

تشغيل الاستدلال

في واجهة المستخدم "تشغيل"، يمكنك تحميل صورة واحدة في لوحة "إدخال الصورة"، وكتابة سؤالك في لوحة "مطالبة إدخال النص". ثم انقر فوق إرسال وانتظر استنتاج النموذج.
يمكنك أيضًا تخصيص فئات الكائنات للكشف عنها في لوحة "الفئات الأرضية". يرجى الفصل بين كل فصل بفواصل (متبوعة بمسافة)، مثل "حقيبة يد، حقيبة ظهر، حقيبة سفر".
على اليمين توجد مخرجات مؤقتة. تعرض "مخرجات الاستعلام" الاستعلامات التي تم إنشاؤها للبحث، بينما تعرض "مخرجات البحث" معرفة الويب المتعلقة بكل كائن.

حاول مع العينات

نحن نقدم لك بعض العينات لتبدأ بها. في واجهة مستخدم "النماذج"، يمكنك تحديد واحدة في لوحة "النماذج"، ثم انقر فوق "تحديد هذا النموذج"، وستجد أن نموذج الإدخال قد تم ملؤه بالفعل في واجهة المستخدم "تشغيل".

؟ استنتاج CLI

يمكنك أيضًا الدردشة مع Vision Search Assistant الخاص بنا في الجهاز عن طريق التشغيل.

 python cli.py 
    --vlm-model "liuhaotian/llava-v1.6-vicuna-7b" 
    --ground-model "IDEA-Research/grounding-dino-base" 
    --search-model "internlm/internlm2_5-7b-chat" 
    --vlm-load-4bit

ثم اختر صورة واكتب سؤالك.

رخصة

تم إصدار هذا المشروع بموجب ترخيص Apache 2.0.

شكر وتقدير

إن Vision Search Assistant مستوحى بشكل كبير من المساهمات البارزة التالية في مجتمع المصادر المفتوحة: GroundingDINO، LLaVA، MindSearch.

الاقتباس

إذا وجدت هذا المشروع مفيدًا في بحثك، فيرجى مراعاة الاستشهاد بـ:

 @article{zhang2024visionsearchassistantempower,
  title={Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines},
  author={Zhang, Zhixin and Zhang, Yiyuan and Ding, Xiaohan and Yue, Xiangyu},
  journal={arXiv preprint arXiv:2410.21220},
  year={2024}
}

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2024-12-26
الحجم 18.77MB
من Github

تطبيقات ذات صلة

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
viptools for eslam

2024-12-15
MySchedule.py

2024-12-15
VITAident

2024-12-15

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
SmartTube

شفرة المصدر الأخرى

24.71 Stable
Sunamu

شفرة المصدر الأخرى

Release 2.2.0
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
termwind

فئات أخرى

v2.3.0
wp functions

فئات أخرى

1.0.0

أخبار ذات صلة الكل