VSA下載 - VSA原始碼下載

VSA

其他源碼

1.0.0

下載

視覺搜尋助手：將視覺語言模型賦能為多模態搜尋引擎

[專案頁] [?論文] [?擁抱臉部空間] [模型動物園] [簡介] [?影片]

？發布

[2024/10/29] 我們發布了本地演示的程式碼。
[2024/10/29] 視覺搜尋助手在arxiv發布。

設定

克隆此儲存庫並導航至 VSA 資料夾。

 git clone https://github.com/cnzzx/VSA.git
cd VSA

創建 conda 環境。

 conda create -n vsa python=3.10
conda activate vsa

安裝 LLaVA。

 cd models/LLaVA
pip install -e .

安裝其他要求。

 pip install -r requirements.txt

本地演示

本地演示基於gradio，您可以簡單地運行：

 python app.py

運行推理

在「執行」使用者介面中，您可以在「輸入影像」面板中上傳一張影像，然後在「輸入文字提示」面板中輸入您的問題。然後點擊提交，等待模型推理。
您也可以在「地面類別」面板中自訂用於偵測的物件類別。請用逗號（後跟空格）分隔各個類別，例如「手提包、背包、手提箱」。
右側是臨時輸出。「查詢輸出」顯示產生的搜尋查詢，「搜尋輸出」顯示與每個物件相關的網路知識。

嘗試使用範例

我們提供一些範例供您開始使用。在“Samples”UI 中，您可以在“Samples”面板中選擇一個，點擊“Select This Sample”，您會發現範例輸入已經填入“Run”UI 中。

？ CLI 推理

您也可以透過運行在終端機中與我們的視覺搜尋助手聊天。

 python cli.py 
    --vlm-model "liuhaotian/llava-v1.6-vicuna-7b" 
    --ground-model "IDEA-Research/grounding-dino-base" 
    --search-model "internlm/internlm2_5-7b-chat" 
    --vlm-load-4bit

然後，選擇圖像並輸入您的問題。

執照

該專案是在 Apache 2.0 許可證下發布的。

致謝

Vision Search Assistant 深受以下對開源社群的傑出貢獻的啟發：GroundingDINO、LLaVA、MindSearch。

引文

如果您發現該項目對您的研究有用，請考慮引用：

 @article{zhang2024visionsearchassistantempower,
  title={Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines},
  author={Zhang, Zhixin and Zhang, Yiyuan and Ding, Xiaohan and Yue, Xiangyu},
  journal={arXiv preprint arXiv:2410.21220},
  year={2024}
}

展開

附加信息

版本 1.0.0
類型其他源碼
更新時間 2024-12-26
大小 18.77MB
來自於 Github

相關應用

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
viptools for eslam

2024-12-15
MySchedule.py

2024-12-15
VITAident

2024-12-15

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
waymo open dataset

其他源碼

December 2023 Update
SmartTube

其他源碼

24.71 Stable
Sunamu

其他源碼

Release 2.2.0
waymo open dataset

其他源碼

December 2023 Update
termwind

其他類別

v2.3.0
wp functions

其他類別

1.0.0

相關資訊全部