[Motor ColPali] [Punto de referencia ViDoRe]
Con nuestro nuevo modelo ColPali , proponemos aprovechar los VLM para construir incrustaciones multivectoriales eficientes en el espacio visual para la recuperación de documentos. Al alimentar los parches de salida ViT de PaliGemma-3B a una proyección lineal, creamos una representación multivectorial de documentos. Entrenamos el modelo para maximizar la similitud entre estas incrustaciones de documentos y las incrustaciones de consultas, siguiendo el método ColBERT.
El uso de ColPali elimina la necesidad de procesos de OCR y reconocimiento de diseño potencialmente complejos y frágiles con un único modelo que puede tener en cuenta el contenido textual y visual (diseño, gráficos,...) de un documento.
Este repositorio contiene cuadernos para aprender sobre la familia de modelos ColVision, ajustarlos para su caso de uso específico, crear mapas de similitud para interpretar sus predicciones, ¡y más! ?
Tarea | Computadora portátil | Descripción |
---|---|---|
Interpretabilidad | ColPali: ¿Generar tus propios mapas de similitud? | Genera tus propios mapas de similitud para interpretar las predicciones de ColPali. |
Sintonia FINA | Afinar ColPali | Ajuste ColPali utilizando LoRA y cuantificación opcional de 4 bits/8 bits. |
Interpretabilidad | ColQwen2: ¿Generar tus propios mapas de similitud? | Genere sus propios mapas de similitud para interpretar las predicciones de ColQwen2. |
TRAPO | ColQwen2: un modelo para toda su tubería RAG con adaptador de intercambio en caliente | Ahorre VRAM utilizando un VLM único para todo su proceso RAG. ¡Funciona incluso en la GPU T4 gratuita de Colab! |
La forma más sencilla de utilizar los cuadernos es abrirlos desde el directorio examples
y hacer clic en el botón Colab a continuación:
Esto abrirá el cuaderno en Google Colab, donde podrá ejecutar el código y experimentar con los modelos.
Si prefiere ejecutar los cuadernos localmente, puede clonar el repositorio y abrir los cuadernos en Jupyter Notebook o en su IDE.
ColPali: recuperación eficiente de documentos con modelos de lenguaje de visión
Autores: Manuel Faysse *, Hugues Sibille *, Tony Wu *, Bilel Omrani, Gautier Viaud, Céline Hudelot, Pierre Colombo (* indica contribución igual)
@misc{faysse2024colpaliefficientdocumentretrieval,
title={ColPali: Efficient Document Retrieval with Vision Language Models},
author={Manuel Faysse and Hugues Sibille and Tony Wu and Bilel Omrani and Gautier Viaud and Céline Hudelot and Pierre Colombo},
year={2024},
eprint={2407.01449},
archivePrefix={arXiv},
primaryClass={cs.IR},
url={https://arxiv.org/abs/2407.01449},
}