UniIR下載 - UniIR原始碼下載

UniIR

Ai源碼

1.0.0

下載

UniIR

首頁| ？資料集(M-BEIR Benchmark) | ？檢查點（ UniIR型號） | arXiv | GitHub

該儲存庫包含 ECCV-2024 論文「 UniIR ：通用多模態資訊檢索器的訓練和基準測試」的程式碼庫

？

[2024-04-13] ：我們重點介紹另一項關於訓練具有後期交互的遵循指令、多任務多模態檢索器的有價值的並行研究：PreFLMR：擴展細粒度後期交互多模態檢索器，該研究是由劍橋大學的研究人員完成。他們還推出了 M2KR 基準，可用於訓練和評估多模態通用資訊檢索器。我們可以將M2KR和M-BEIR基準結合起來，以促進該領域的進步。
[2024-03-18]：釋放UniIR （CLIP_SF）大和UniIR （BLIP_FF）大檢查點？檢查站
[2023-12-21]：我們的？ M-BEIR Benchmark 現已可供使用。

介紹

我們提出了UniIR （通用多模態資訊檢索）框架來學習單一檢索器來完成（可能）任何檢索任務。與傳統的 IR 系統不同， UniIR需要按照說明進行異質查詢，以從具有數百萬個不同模式的候選者的異質候選池中進行檢索。

<跨距類別= UniIR Teaser" style="width: 80%;最大寬度：100%；">

內容

M-貝爾
訓練
評估
模型動物園
引文和聯絡方式

M-貝爾

為了訓練和評估通用多模態檢索模型，我們建立了一個名為M-BEIR （指導檢索的多模態基準）的大規模檢索基準。

M-BEIR 下載

我們在?中提供 M-BEIR 資料集。數據集。請按照 HF 頁面上提供的說明下載資料集並準備用於訓練和評估的資料。您需要設定 GiT LFS 並直接複製儲存庫：

 git clone https://huggingface.co/datasets/TIGER-Lab/M-BEIR

UniIR模型

我們提供用於訓練和評估UniIR CLIP-ScoreFusion、CLIP-FeatureFusion、BLIP-ScoreFusion 和 BLIP-FeatureFusion 模型的程式碼庫。

環境

使用以下命令準備UniIR專案和 Conda 環境的程式碼庫：

UniIR cd src/models/ conda env create -f UniIR _env.yml">

git clone https://github.com/TIGER-AI-Lab/UniIR
cd UniIR

cd src/models/
conda env create -f UniIR _env.yml

訓練

若要從預先訓練的 CLIP 和 BLIP 檢查點訓練UniIR模型，請按照以下說明進行操作。腳本將自動下載預先訓練的 CLIP 和 BLIP 檢查點。

1.下載M-BEIR基準測試

請依照M-BEIR部分的說明下載 M-BEIR 基準測試。

2. 腳本

使用預設配置訓練UniIR CLIP_SF Large：

 cd src/models/ UniIR _clip/clip_scorefusion/configs_scripts/large/train/inbatch/

修改inbatch.yaml以進行超參數調整，並run_inbatch.sh以適應您自己的環境和路徑。

筆記：

將run_inbatch.sh中的UniIR _DIR修改為要儲存檢查點的目錄。
將run_inbatch.sh中的MBEIR_DATA_DIR修改為M-BEIR基準測試的儲存目錄。
將run_inbatch.sh中的SRC_DIR修改為儲存UniIR專案程式碼庫的目錄（此儲存庫）。
預設情況下， UniIR模型在 M-BEIR 上使用批內負例進行訓練，並且不使用原始資料集提供的硬負例。
我們使用 wandb 來記錄訓練過程。請確保設定了包含WANDB_API_KEY 、 WANDB_PROJECT和WANDB_ENTITY的.env環境。

然後您可以執行以下命令來訓練UniIR CLIP_SF Large 模型。

bash run_inbatch.sh

使用預設配置訓練UniIR BLIP_FF Large：

 cd src/models/ UniIR _blip/blip_featurefusion/configs_scripts/large/train/inbatch/

修改inbatch.yaml以進行超參數調整，並run_inbatch.sh以適應您自己的環境和路徑。

bash run_inbatch.sh

同樣，您可以透過修改對應的腳本來訓練UniIR CLIP_FF和BLIP_SF模型。

評估

我們在 M-BEIR 基準上提供UniIR模型的評估流程。

1. 環境

請為 FAISS 庫建立一個環境：

 # From the root directory of the project
cd src/common/
conda env create -f faiss_env.yml

2.下載M-BEIR基準測試

請依照M-BEIR部分的說明下載 M-BEIR 基準測試。

3. 下載UniIR檢查點

您可以按照模型動物園部分中的說明從頭開始訓練UniIR模型或下載預先訓練的UniIR檢查點。

4. 腳本

若要使用預設配置評估UniIR CLIP_SF Large：

 cd src/models/ UniIR _clip/clip_scorefusion/configs_scripts/large/eval/inbatch/

根據您自己的環境、路徑和評估設定修改embed.yaml 、 index.yaml 、 retrieval.yaml和run_eval_pipeline_inbatch.sh 。

筆記：

如果您下載我們的預訓練UniIR模型，請將run_eval_pipeline_inbatch.sh中的UniIR _DIR修改為您要儲存大型檔案（包括檢查點、嵌入、索引和檢索結果）的目錄。然後您可以將clip_sf_large.pth檔案放置在以下路徑中：
```
 $ UniIR _DIR /checkpoint/CLIP_SF/Large/Instruct/InBatch/clip_sf_large.pth
```
這是embed.yaml檔案中model.ckpt_config指定的預設路徑。
將run_eval_pipeline_inbatch.sh中的MBEIR_DATA_DIR修改為M-BEIR基準測試的儲存目錄。
將run_eval_pipeline_inbatch.sh中的SRC_DIR修改為儲存UniIR專案程式碼庫的目錄（此儲存庫）。

預設配置將在 M-BEIR（5.6M 異質候選池）和 M-BEIR_local（同質候選池）基準上評估UniIR CLIP_SF Large 模型。 yaml檔案中的UNION指的是M-BEIR（5.6M異構候選池）。您可以按照yaml檔案中的註解並修改配置以僅在M-BEIR_local基準測試上評估模型。

bash run_eval_pipeline_inbatch.sh

embed 、 index 、 logger和retrieval_results將保存在$ UniIR _DIR目錄中。

若要使用預設配置評估UniIR BLIP_FF Large：

 cd src/models/unii_blip/blip_featurefusion/configs_scripts/large/eval/inbatch/

同樣，如果您下載我們預先訓練的UniIR模型，則可以將blip_ff_large.pth檔案放置在以下路徑中：

 $ UniIR _DIR /checkpoint/BLIP_FF/Large/Instruct/InBatch/blip_ff_large.pth

預設配置將在 M-BEIR 和 M-BEIR_local 基準測試上評估UniIR BLIP_FF Large 模型。

bash run_eval_pipeline_inbatch.sh

UniRAG評估

UniRAG 評估與預設評估非常相似，但存在以下差異：

它將包含查詢及其檢索到的候選者的 jsonl 檔案儲存在retrieval_results下。當檢索到的結果將用於 RAG 等下游應用時，這非常有用。
當retrieval.yaml中的retrieve_image_text_pairs設定為True時，將為每個僅text或僅image模式的候選者取得補集候選者。透過這種設置，候選詞及其補語將始終具有image, text形態。透過使用原始候選作為查詢來獲取補充候選（例如，查詢_文字->候選_圖像->補充候選_文字）。
若要在 UniRAG 模式下執行評估，請按照上面提供的說明分別將InBatch和inbatch替換為UniRAG和unirag 。

您可以透過修改對應的腳本來訓練和評估UniIR CLIP_FF和BLIP_SF模型。

模型動物園

我們在?中提供UniIR模型檢查點檢查站。您可以直接使用檢查點進行檢索任務，也可以針對自己的檢索任務微調模型。

可用檢查點

型號名稱	版本	型號尺寸	型號連結
UniIR (CLIP-SF)	大的	5.13GB	下載連結
UniIR (BLIP-FF)	大的	7.49 GB	下載連結

您可以透過以下方式下載它們

 git clone https://huggingface.co/TIGER-Lab/UniIR

引文和聯絡方式

叢偉：[email protected]
楊晨：[email protected]
艾倫·里特：[email protected]
陳文虎：[email protected]

參考書目：

UniIR, title={ UniIR : Training and benchmarking universal multimodal information retrievers}, author={Wei, Cong and Chen, Yang and Chen, Haonan and Hu, Hexiang and Zhang, Ge and Fu, Jie and Ritter, Alan and Chen, Wenhu}, journal={arXiv preprint arXiv:2311.17136}, year={2023} }">

 @article { wei2023 UniIR ,
  title = { UniIR : Training and benchmarking universal multimodal information retrievers } ,
  author = { Wei, Cong and Chen, Yang and Chen, Haonan and Hu, Hexiang and Zhang, Ge and Fu, Jie and Ritter, Alan and Chen, Wenhu } ,
  journal = { arXiv preprint arXiv:2311.17136 } ,
  year = { 2023 }
}

展開

附加信息

版本 1.0.0
類型 Ai源碼
更新時間 2024-12-30
大小 50MB
來自於 Github

相關應用

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
node telegram bot api

Ai源碼

v0.50.0
typebot.io

Ai源碼

v3.1.2
python wechaty getting started

Ai源碼

1.0.0
waymo open dataset

其他源碼

December 2023 Update
termwind

其他類別

v2.3.0
wp functions

其他類別

1.0.0

相關資訊全部