VSA下载 - VSA源代码下载

VSA

其他源码

1.0.0

下载

视觉搜索助手：将视觉语言模型赋能为多模态搜索引擎

[项目页面] [?论文] [?拥抱脸部空间] [模型动物园] [简介] [?视频]

？发布

[2024/10/29] 我们发布了本地演示的代码。
[2024/10/29] 视觉搜索助手在arxiv发布。

设置

克隆此存储库并导航到 VSA 文件夹。

 git clone https://github.com/cnzzx/VSA.git
cd VSA

创建 conda 环境。

 conda create -n vsa python=3.10
conda activate vsa

安装 LLaVA。

 cd models/LLaVA
pip install -e .

安装其他要求。

 pip install -r requirements.txt

本地演示

本地演示基于gradio，您可以简单地运行：

 python app.py

运行推理

在“运行”用户界面中，您可以在“输入图像”面板中上传一张图像，然后在“输入文本提示”面板中输入您的问题。然后点击提交，等待模型推理。
您还可以在“地面类”面板中自定义用于检测的对象类。请用逗号（后跟空格）分隔各个类别，例如“手提包、背包、手提箱”。
右侧是临时输出。 “查询输出”显示生成的搜索查询，“搜索输出”显示与每个对象相关的网络知识。

尝试使用示例

我们提供一些示例供您开始使用。在“Samples”UI 中，您可以在“Samples”面板中选择一个，单击“Select This Sample”，您会发现示例输入已经填充在“Run”UI 中。

？ CLI 推理

您还可以通过运行在终端中与我们的视觉搜索助手聊天。

 python cli.py 
    --vlm-model "liuhaotian/llava-v1.6-vicuna-7b" 
    --ground-model "IDEA-Research/grounding-dino-base" 
    --search-model "internlm/internlm2_5-7b-chat" 
    --vlm-load-4bit

然后，选择图像并输入您的问题。

执照

该项目是在 Apache 2.0 许可证下发布的。

致谢

Vision Search Assistant 深受以下对开源社区的杰出贡献的启发：GroundingDINO、LLaVA、MindSearch。

引文

如果您发现该项目对您的研究有用，请考虑引用：

 @article{zhang2024visionsearchassistantempower,
  title={Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines},
  author={Zhang, Zhixin and Zhang, Yiyuan and Ding, Xiaohan and Yue, Xiangyu},
  journal={arXiv preprint arXiv:2410.21220},
  year={2024}
}

展开

附加信息