Download VSA - download do código-fonte VSA

VSA

Outro código-fonte

1.0.0

Baixar

Assistente de pesquisa de visão: capacite modelos de linguagem de visão como mecanismos de pesquisa multimodais

[Página do projeto] [?Papel] [?Hugging Face Space] [Model Zoo] [Introdução] [?Vídeo]

? Liberar

[2024/10/29] Lançamos o código da demonstração local.
[2024/10/29] Vision Search Assistant é lançado no arxiv.

Configurar

Clone este repositório e navegue até a pasta VSA.

 git clone https://github.com/cnzzx/VSA.git
cd VSA

Crie ambientes conda.

 conda create -n vsa python=3.10
conda activate vsa

Instale o LLaVA.

 cd models/LLaVA
pip install -e .

Instale outros requisitos.

 pip install -r requirements.txt

Demonstração local

A demonstração local é baseada em gradio e você pode simplesmente executar:

 python app.py

Executar inferência

Na IU "Executar", você pode fazer upload de uma imagem no painel "Imagem de entrada" e digitar sua pergunta no painel "Prompt de texto de entrada". Em seguida, clique em enviar e aguarde a inferência do modelo.
Você também pode personalizar classes de objetos para detecção no painel "Classes Terrestres". Separe cada classe por vírgulas (seguidas de espaço), como “bolsa, mochila, mala”.
À direita estão as saídas temporárias. "Query Output" mostra as consultas geradas para pesquisa e "Search Output" mostra o conhecimento da web relacionado a cada objeto.

Experimente com amostras

Fornecemos alguns exemplos para você começar. Na IU "Amostras", você pode selecionar uma no painel "Amostras", clicar em "Selecionar esta amostra" e você descobrirá que a entrada da amostra já foi preenchida na IU "Executar".

? Inferência CLI

Você também pode conversar com nosso Vision Search Assistant no terminal executando.

 python cli.py 
    --vlm-model "liuhaotian/llava-v1.6-vicuna-7b" 
    --ground-model "IDEA-Research/grounding-dino-base" 
    --search-model "internlm/internlm2_5-7b-chat" 
    --vlm-load-4bit

Em seguida, selecione uma imagem e digite sua pergunta.

Licença

Este projeto é lançado sob a licença Apache 2.0.

Agradecimentos

O Vision Search Assistant é muito inspirado nas seguintes contribuições notáveis para a comunidade de código aberto: GroundingDINO, LLaVA, MindSearch.

Citação

Se você achar este projeto útil em sua pesquisa, considere citar:

 @article{zhang2024visionsearchassistantempower,
  title={Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines},
  author={Zhang, Zhixin and Zhang, Yiyuan and Ding, Xiaohan and Yue, Xiangyu},
  journal={arXiv preprint arXiv:2410.21220},
  year={2024}
}

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2024-12-26
tamanho 18.77MB
Vindo de Github

Aplicativos Relacionados

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
viptools for eslam

2024-12-15
MySchedule.py

2024-12-15
VITAident

2024-12-15

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
waymo open dataset

Outro código-fonte

December 2023 Update
SmartTube

Outro código-fonte

24.71 Stable
Sunamu

Outro código-fonte

Release 2.2.0
waymo open dataset

Outro código-fonte

December 2023 Update
termwind

Outras categorias

v2.3.0
wp functions

Outras categorias

1.0.0

Informações Relacionadas Todos