[Moteur ColPali] [Benchmark ViDoRe]
Avec notre nouveau modèle ColPali , nous proposons d'exploiter les VLM pour construire des intégrations multi-vecteurs efficaces dans l'espace visuel pour la récupération de documents. En alimentant les patchs de sortie ViT de PaliGemma-3B vers une projection linéaire, nous créons une représentation multi-vecteur des documents. Nous entraînons le modèle pour maximiser la similarité entre ces intégrations de documents et les intégrations de requêtes, en suivant la méthode ColBERT.
L'utilisation de ColPali supprime le besoin de reconnaissance de mise en page et de pipelines OCR potentiellement complexes et fragiles avec un modèle unique capable de prendre en compte à la fois le contenu textuel et visuel (mise en page, graphiques, ...) d'un document.
Ce référentiel contient des blocs-notes pour en savoir plus sur la famille de modèles ColVision, les affiner pour votre cas d'utilisation spécifique, créer des cartes de similarité pour interpréter leurs prédictions, et bien plus encore ! ?
Tâche | Carnet de notes | Description |
---|---|---|
Interprétabilité | ColPali : Générer vos propres cartes de similarité ? | Générez vos propres cartes de similarité pour interpréter les prédictions de ColPali. |
Réglage fin | Affiner ColPali | Affinez ColPali à l’aide de LoRA et de la quantification 4 bits/8 bits en option. |
Interprétabilité | ColQwen2 : Générer vos propres cartes de similarité ? | Générez vos propres cartes de similarité pour interpréter les prédictions de ColQwen2. |
CHIFFON | ColQwen2 : un modèle pour l'ensemble de votre pipeline RAG avec échange à chaud d'adaptateur | Économisez de la VRAM en utilisant un VLM unique pour l'ensemble de votre pipeline RAG. Fonctionne même sur le GPU T4 gratuit de Colab ! |
La façon la plus simple d'utiliser les notebooks est de les ouvrir depuis le répertoire examples
et de cliquer sur le bouton Colab ci-dessous :
Cela ouvrira le bloc-notes dans Google Colab, où vous pourrez exécuter le code et expérimenter les modèles.
Si vous préférez exécuter les notebooks localement, vous pouvez cloner le référentiel et ouvrir les notebooks dans Jupyter Notebook ou dans votre IDE.
ColPali : récupération efficace de documents avec des modèles de langage de vision
Auteurs : Manuel Faysse *, Hugues Sibille *, Tony Wu *, Bilel Omrani, Gautier Viaud, Céline Hudelot, Pierre Colombo (* désigne une contribution égale)
@misc{faysse2024colpaliefficientdocumentretrieval,
title={ColPali: Efficient Document Retrieval with Vision Language Models},
author={Manuel Faysse and Hugues Sibille and Tony Wu and Bilel Omrani and Gautier Viaud and Céline Hudelot and Pierre Colombo},
year={2024},
eprint={2407.01449},
archivePrefix={arXiv},
primaryClass={cs.IR},
url={https://arxiv.org/abs/2407.01449},
}