colpali cookbooks
v0.3.1
[ColPali 引擎] [ViDoRe 基准测试]
通过我们的新模型ColPali ,我们建议利用 VLM 在视觉空间中构建高效的多向量嵌入来进行文档检索。通过将 PaliGemma-3B 的 ViT 输出补丁输入线性投影,我们创建了文档的多向量表示。我们遵循 ColBERT 方法训练模型以最大化这些文档嵌入和查询嵌入之间的相似性。
使用 ColPali 可以消除对潜在复杂且脆弱的布局识别和 OCR 管道的需求,单个模型可以同时考虑文档的文本和视觉内容(布局、图表等)。
该存储库包含用于了解 ColVision 系列模型、针对您的特定用例对其进行微调、创建相似性图来解释其预测等等的笔记本! ?
任务 | 笔记本 | 描述 |
---|---|---|
可解释性 | ColPali:生成您自己的相似性图? | 生成您自己的相似性图来解释 ColPali 的预测。 |
微调 | 微调 ColPali | 使用 LoRA 和可选的 4 位/8 位量化微调 ColPali。 |
可解释性 | ColQwen2:生成您自己的相似性图? | 生成您自己的相似性图来解释 ColQwen2 的预测。 |
抹布 | ColQwen2:适用于整个 RAG 管道的一种模型,具有适配器热插拔功能 | 通过为整个 RAG 管道使用独特的 VLM 来节省 VRAM。甚至可以在 Colab 的免费 T4 GPU 上运行! |
使用笔记本的最简单方法是从examples
目录中打开它们,然后单击下面的 Colab 按钮:
这将在 Google Colab 中打开笔记本,您可以在其中运行代码并试验模型。
如果您更喜欢在本地运行笔记本,可以克隆存储库并在 Jupyter Notebook 或 IDE 中打开笔记本。
ColPali:利用视觉语言模型进行高效文档检索
作者: Manuel Faysse *、 Hugues Sibille *、 Tony Wu *、Bilel Omrani、Gautier Viaud、Céline Hudelot、Pierre Colombo(* 表示同等贡献)
@misc{faysse2024colpaliefficientdocumentretrieval,
title={ColPali: Efficient Document Retrieval with Vision Language Models},
author={Manuel Faysse and Hugues Sibille and Tony Wu and Bilel Omrani and Gautier Viaud and Céline Hudelot and Pierre Colombo},
year={2024},
eprint={2407.01449},
archivePrefix={arXiv},
primaryClass={cs.IR},
url={https://arxiv.org/abs/2407.01449},
}