【ColPaliエンジン】 【ViDoReベンチマーク】
新しいモデルColPaliでは、VLM を活用して、文書検索用の視覚空間に効率的なマルチベクトル埋め込みを構築することを提案します。 ViT 出力パッチを PaliGemma-3B から線形投影に供給することにより、ドキュメントのマルチベクトル表現を作成します。 ColBERT メソッドに従って、これらのドキュメントの埋め込みとクエリの埋め込みの間の類似性を最大化するようにモデルをトレーニングします。
ColPali を使用すると、ドキュメントのテキストとビジュアルの両方のコンテンツ (レイアウト、グラフなど) を考慮できる単一のモデルを使用して、潜在的に複雑で脆弱なレイアウト認識と OCR パイプラインの必要性がなくなります。
このリポジトリには、ColVision ファミリのモデルについて学習し、特定のユースケースに合わせてモデルを微調整し、予測を解釈するための類似性マップを作成するためのノートブックが含まれています。 ?
タスク | ノート | 説明 |
---|---|---|
解釈可能性 | ColPali: 独自の類似性マップを生成しますか? | 独自の類似性マップを生成して、ColPali の予測を解釈します。 |
微調整 | ColPali を微調整する | LoRA とオプションの 4 ビット/8 ビット量子化を使用して ColPali を微調整します。 |
解釈可能性 | ColQwen2: 独自の類似性マップを生成しますか? | 独自の類似性マップを生成して、ColQwen2 の予測を解釈します。 |
ラグ | ColQwen2: アダプターのホットスワップを備えた RAG パイプライン全体の 1 つのモデル | RAG パイプライン全体に一意の VLM を使用して VRAM を節約します。 Colab の無料 T4 GPU でも動作します。 |
ノートブックを使用する最も簡単な方法は、 examples
ディレクトリからノートブックを開いて、下の [Colab] ボタンをクリックすることです。
これにより、Google Colab でノートブックが開き、コードを実行してモデルを実験できるようになります。
ノートブックをローカルで実行したい場合は、リポジトリのクローンを作成し、Jupyter Notebook または IDE でノートブックを開くことができます。
ColPali: ビジョン言語モデルを使用した効率的なドキュメント検索
著者: Manuel Faysse *、 Huges Sibille *、 Tony Wu *、Bilel Omrani、Gautier Viaud、Céline Hudelot、Pierre Colombo (* は同等の貢献を示します)
@misc{faysse2024colpaliefficientdocumentretrieval,
title={ColPali: Efficient Document Retrieval with Vision Language Models},
author={Manuel Faysse and Hugues Sibille and Tony Wu and Bilel Omrani and Gautier Viaud and Céline Hudelot and Pierre Colombo},
year={2024},
eprint={2407.01449},
archivePrefix={arXiv},
primaryClass={cs.IR},
url={https://arxiv.org/abs/2407.01449},
}