Загрузка VSA - Загрузка исходного кода VSA

VSA

Другой исходный код

1.0.0

Скачать

Vision Search Assistant: использование моделей Vision-Language в качестве мультимодальных поисковых систем

[Страница проекта] [?Бумага] [?Обнимающее пространство] [Модельный зоопарк] [Введение] [?Видео]

? Выпускать

[2024/10/29] Мы выпустили код локальной демо-версии.
[29.10.2024] Vision Search Assistant выпущен на arxiv.

Настраивать

Клонируйте этот репозиторий и перейдите в папку VSA.

 git clone https://github.com/cnzzx/VSA.git
cd VSA

Создайте среду conda.

 conda create -n vsa python=3.10
conda activate vsa

Установите LLaVA.

 cd models/LLaVA
pip install -e .

Установите другие требования.

 pip install -r requirements.txt

Локальная демо-версия

Локальная демо-версия основана на Gradio, и вы можете просто запустить ее с помощью:

 python app.py

Запустить вывод

В пользовательском интерфейсе «Выполнить» вы можете загрузить одно изображение на панель «Входное изображение» и ввести свой вопрос на панели «Ввод текстовой подсказки». Затем нажмите «Отправить» и дождитесь вывода модели.
Вы также можете настроить классы объектов для обнаружения на панели «Основные классы». Пожалуйста, разделяйте каждый класс запятыми (после которых следует пробел), например «сумочка, рюкзак, чемодан».
Справа — временные выходы. «Вывод запроса» показывает сгенерированные запросы для поиска, а «Вывод поиска» показывает веб-знания, связанные с каждым объектом.

Попробуйте с образцами

Мы предоставляем вам несколько образцов для начала. В пользовательском интерфейсе «Образцы» вы можете выбрать один из них на панели «Образцы», нажать «Выбрать этот образец», и вы обнаружите, что входные данные образца уже заполнены в пользовательском интерфейсе «Выполнить».

? Вывод CLI

Вы также можете пообщаться с нашим помощником Vision Search Assistant в терминале, запустив.

 python cli.py 
    --vlm-model "liuhaotian/llava-v1.6-vicuna-7b" 
    --ground-model "IDEA-Research/grounding-dino-base" 
    --search-model "internlm/internlm2_5-7b-chat" 
    --vlm-load-4bit

Затем выберите изображение и введите свой вопрос.

Лицензия

Этот проект выпущен под лицензией Apache 2.0.

Благодарности

Vision Search Assistant во многом вдохновлен следующими выдающимися вкладами в сообщество открытого исходного кода: GroundingDINO, LLaVA, MindSearch.

Цитирование

Если вы найдете этот проект полезным в своих исследованиях, пожалуйста, рассмотрите ссылку:

 @article{zhang2024visionsearchassistantempower,
  title={Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines},
  author={Zhang, Zhixin and Zhang, Yiyuan and Ding, Xiaohan and Yue, Xiangyu},
  journal={arXiv preprint arXiv:2410.21220},
  year={2024}
}

Расширять

Дополнительная информация