Descarga VSA - Descarga del código fuente VSA

VSA

Otro código fuente

1.0.0

Descargar

Asistente de búsqueda de visión: potenciar los modelos de lenguaje de visión como motores de búsqueda multimodales

[Página del proyecto] [?Papel] [?Hugging Face Space] [Model Zoo] [Introducción] [?Video]

? Liberar

[2024/10/29] Publicamos el código para la demostración local.
[2024/10/29] Vision Search Assistant se lanza en arxiv.

Configuración

Clone este repositorio y navegue hasta la carpeta VSA.

 git clone https://github.com/cnzzx/VSA.git
cd VSA

Crea entornos conda.

 conda create -n vsa python=3.10
conda activate vsa

Instalar LLaVA.

 cd models/LLaVA
pip install -e .

Instalar otros requisitos.

 pip install -r requirements.txt

Demostración local

La demostración local está basada en gradio y puedes ejecutarla simplemente con:

 python app.py

Ejecutar inferencia

En la interfaz de usuario "Ejecutar", puede cargar una imagen en el panel "Ingresar imagen" y escribir su pregunta en el panel "Ingresar mensaje de texto". Luego, haga clic en enviar y espere la inferencia del modelo.
También puede personalizar las clases de objetos para su detección en el panel "Clases de terreno". Separe cada clase con comas (seguidas de un espacio), como "bolso, mochila, maleta".
A la derecha están las salidas temporales. "Resultado de la consulta" muestra las consultas generadas para la búsqueda y "Resultado de la búsqueda" muestra el conocimiento web relacionado con cada objeto.

Pruebe con muestras

Le proporcionamos algunas muestras para que comience. En la interfaz de usuario "Muestras", puede seleccionar una en el panel "Muestras", hacer clic en "Seleccionar esta muestra" y verá que la entrada de muestra ya se ha completado en la interfaz de usuario "Ejecutar".

? Inferencia CLI

También puedes chatear con nuestro Asistente de búsqueda de visión en la terminal ejecutando.

 python cli.py 
    --vlm-model "liuhaotian/llava-v1.6-vicuna-7b" 
    --ground-model "IDEA-Research/grounding-dino-base" 
    --search-model "internlm/internlm2_5-7b-chat" 
    --vlm-load-4bit

Luego, seleccione una imagen y escriba su pregunta.

Licencia

Este proyecto se publica bajo la licencia Apache 2.0.

Expresiones de gratitud

Vision Search Assistant está muy inspirado en las siguientes contribuciones destacadas a la comunidad de código abierto: GroundingDINO, LLaVA, MindSearch.

Citación

Si encuentra útil este proyecto en su investigación, considere citar:

 @article{zhang2024visionsearchassistantempower,
  title={Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines},
  author={Zhang, Zhixin and Zhang, Yiyuan and Ding, Xiaohan and Yue, Xiangyu},
  journal={arXiv preprint arXiv:2410.21220},
  year={2024}
}

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2024-12-26
tamaño 18.77MB
Proviene de Github

Aplicaciones relacionadas

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
viptools for eslam

2024-12-15
MySchedule.py

2024-12-15
VITAident

2024-12-15

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
waymo open dataset

Otro código fuente

December 2023 Update
SmartTube

Otro código fuente

24.71 Stable
Sunamu

Otro código fuente

Release 2.2.0
waymo open dataset

Otro código fuente

December 2023 Update
termwind

Otras categorias

v2.3.0
wp functions

Otras categorias

1.0.0

Información relacionada Todo