Téléchargement VSA - Téléchargement du code source VSA

VSA

Autre code source

1.0.0

Télécharger

Vision Search Assistant : renforcez les modèles Vision-Langage en tant que moteurs de recherche multimodaux

[Page du projet] [?Papier] [?Hugging Face Space] [Model Zoo] [Introduction] [?Vidéo]

? Libérer

[2024/10/29] Nous avons publié le code de la démo locale.
[2024/10/29] Vision Search Assistant est publié sur arxiv.

Installation

Clonez ce référentiel et accédez au dossier VSA.

 git clone https://github.com/cnzzx/VSA.git
cd VSA

Créez des environnements conda.

 conda create -n vsa python=3.10
conda activate vsa

Installez LLaVA.

 cd models/LLaVA
pip install -e .

Installez d'autres exigences.

 pip install -r requirements.txt

Démo locale

La démo locale est basée sur gradio, et vous pouvez simplement l'exécuter avec :

 python app.py

Exécuter l'inférence

Dans l'interface utilisateur « Exécuter », vous pouvez télécharger une image dans le panneau « Image d'entrée » et saisir votre question dans le panneau « Invite de texte de saisie ». Ensuite, cliquez sur Soumettre et attendez l'inférence du modèle.
Vous pouvez également personnaliser les classes d'objets pour la détection dans le panneau « Classes au sol ». Veuillez séparer chaque classe par des virgules (suivies d'un espace), par exemple « sac à main, sac à dos, valise ».
À droite se trouvent les sorties temporaires. « Sortie de requête » affiche les requêtes générées pour la recherche et « Sortie de recherche » affiche les connaissances Web liées à chaque objet.

Essayez avec des échantillons

Nous vous fournissons quelques échantillons pour commencer. Dans l'interface utilisateur « Échantillons », vous pouvez en sélectionner un dans le panneau « Échantillons », cliquer sur « Sélectionner cet échantillon » et vous constaterez que l'échantillon d'entrée a déjà été renseigné dans l'interface utilisateur « Exécuter ».

? Inférence CLI

Vous pouvez également discuter avec notre Vision Search Assistant dans le terminal en exécutant.

 python cli.py 
    --vlm-model "liuhaotian/llava-v1.6-vicuna-7b" 
    --ground-model "IDEA-Research/grounding-dino-base" 
    --search-model "internlm/internlm2_5-7b-chat" 
    --vlm-load-4bit

Ensuite, sélectionnez une image et saisissez votre question.

Licence

Ce projet est publié sous la licence Apache 2.0.

Remerciements

Vision Search Assistant s'inspire grandement des contributions exceptionnelles suivantes à la communauté open source : GroundingDINO, LLaVA, MindSearch.

Citation

Si vous trouvez ce projet utile dans votre recherche, pensez à citer :

 @article{zhang2024visionsearchassistantempower,
  title={Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines},
  author={Zhang, Zhixin and Zhang, Yiyuan and Ding, Xiaohan and Yue, Xiangyu},
  journal={arXiv preprint arXiv:2410.21220},
  year={2024}
}

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2024-12-26
taille 18.77MB
Provenant de Github

Applications connexes

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
viptools for eslam

2024-12-15
MySchedule.py

2024-12-15
VITAident

2024-12-15

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
waymo open dataset

Autre code source

December 2023 Update
SmartTube

Autre code source

24.71 Stable
Sunamu

Autre code source

Release 2.2.0
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout