colpali cookbooks
v0.3.1
[ColPali 引擎] [ViDoRe 基準測試]
透過我們的新模型ColPali ,我們建議利用 VLM 在視覺空間中建立高效的多向量嵌入來進行文件檢索。透過將 PaliGemma-3B 的 ViT 輸出補丁輸入線性投影,我們建立了文件的多向量表示。我們遵循 ColBERT 方法訓練模型以最大化這些文件嵌入和查詢嵌入之間的相似性。
使用 ColPali 可以消除對潛在複雜且脆弱的佈局識別和 OCR 管道的需求,單一模型可以同時考慮文件的文字和視覺內容(佈局、圖表等)。
該儲存庫包含用於了解 ColVision 系列模型、針對您的特定用例對其進行微調、創建相似性圖來解釋其預測等等的筆記本! ?
任務 | 筆記本 | 描述 |
---|---|---|
可解釋性 | ColPali:產生您自己的相似性圖? | 產生您自己的相似性圖來解釋 ColPali 的預測。 |
微調 | 微調 ColPali | 使用 LoRA 和可選的 4 位元/8 位元量化微調 ColPali。 |
可解釋性 | ColQwen2:產生您自己的相似性圖? | 產生您自己的相似性圖來解釋 ColQwen2 的預測。 |
抹布 | ColQwen2:適用於整個 RAG 管道的一種模型,具有適配器熱插拔功能 | 透過為整個 RAG 管道使用獨特的 VLM 來節省 VRAM。甚至可以在 Colab 的免費 T4 GPU 上運行! |
使用筆記本的最簡單方法是從examples
目錄中開啟它們,然後點擊下面的 Colab 按鈕:
這將在 Google Colab 中開啟筆記本,您可以在其中執行程式碼並試驗模型。
如果您喜歡在本機上運行筆記本,可以複製儲存庫並在 Jupyter Notebook 或 IDE 中開啟筆記本。
ColPali:利用視覺語言模型進行高效能文件檢索
作者: Manuel Faysse *、 Hugues Sibille *、 Tony Wu *、Bilel Omrani、Gautier Viaud、Céline Hudelot、Pierre Colombo(* 表示同等貢獻)
@misc{faysse2024colpaliefficientdocumentretrieval,
title={ColPali: Efficient Document Retrieval with Vision Language Models},
author={Manuel Faysse and Hugues Sibille and Tony Wu and Bilel Omrani and Gautier Viaud and Céline Hudelot and Pierre Colombo},
year={2024},
eprint={2407.01449},
archivePrefix={arXiv},
primaryClass={cs.IR},
url={https://arxiv.org/abs/2407.01449},
}