VSAダウンロード - VSAソースコードのダウンロード

VSA

その他のソースコード

1.0.0

ダウンロード

Vision Search Assistant: マルチモーダル検索エンジンとして視覚言語モデルを強化

[プロジェクトページ] [?論文] [?ハグフェイススペース] [模型動物園] [紹介] [?ビデオ]

?リリース

[2024/10/29] ローカルデモ用コードを公開しました。
[2024/10/29] arxiv で Vision Search Assistant をリリースしました。

設定

このリポジトリのクローンを作成し、VSA フォルダに移動します。

 git clone https://github.com/cnzzx/VSA.git
cd VSA

conda 環境を作成します。

 conda create -n vsa python=3.10
conda activate vsa

LLaVAをインストールします。

 cd models/LLaVA
pip install -e .

他の要件をインストールします。

 pip install -r requirements.txt

ローカルデモ

ローカルデモは gradio に基づいており、次のものを使用して簡単に実行できます。

 python app.py

推論の実行

「実行」UI では、「入力画像」パネルに画像を 1 つアップロードし、「入力テキストプロンプト」パネルに質問を入力できます。次に、「送信」をクリックして、モデル推論を待ちます。
「地上クラス」パネルで検出用のオブジェクトクラスをカスタマイズすることもできます。「ハンドバッグ、バックパック、スーツケース」のように、各クラスをカンマ (その後にスペース) で区切ってください。
右側は一時的な出力です。「クエリ出力」には検索用に生成されたクエリが表示され、「検索出力」には各オブジェクトに関連する Web ナレッジが表示されます。

サンプルで試してみる

まずはいくつかのサンプルをご用意しています。「サンプル」UI では、「サンプル」パネルで 1 つを選択し、「このサンプルを選択」をクリックすると、「実行」UI にサンプル入力がすでに入力されていることがわかります。

? CLI推論

実行してターミナル内のビジョン検索アシスタントとチャットすることもできます。

 python cli.py 
    --vlm-model "liuhaotian/llava-v1.6-vicuna-7b" 
    --ground-model "IDEA-Research/grounding-dino-base" 
    --search-model "internlm/internlm2_5-7b-chat" 
    --vlm-load-4bit

次に、画像を選択し、質問を入力します。

ライセンス

このプロジェクトは、Apache 2.0 ライセンスに基づいてリリースされています。

謝辞

Vision Search Assistant は、オープンソースコミュニティへの傑出した貢献から多大な影響を受けています: GroundingDINO、LLaVA、MindSearch。

引用

このプロジェクトがあなたの研究に役立つと思われる場合は、次の引用を検討してください。

 @article{zhang2024visionsearchassistantempower,
  title={Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines},
  author={Zhang, Zhixin and Zhang, Yiyuan and Ding, Xiaohan and Yue, Xiangyu},
  journal={arXiv preprint arXiv:2410.21220},
  year={2024}
}

拡大する

追加情報