[Mecanismo ColPali] [Benchmark ViDoRe]
Com nosso novo modelo ColPali , propomos aproveitar VLMs para construir incorporações multivetoriais eficientes no espaço visual para recuperação de documentos. Ao alimentar os patches de saída ViT do PaliGemma-3B em uma projeção linear, criamos uma representação multivetorial de documentos. Treinamos o modelo para maximizar a semelhança entre esses embeddings de documentos e os embeddings de consulta, seguindo o método ColBERT.
O uso do ColPali elimina a necessidade de reconhecimento de layout e pipelines de OCR potencialmente complexos e frágeis com um único modelo que pode levar em consideração o conteúdo textual e visual (layout, gráficos, ...) de um documento.
Este repositório contém cadernos para aprender sobre a família de modelos ColVision, ajustá-los para seu caso de uso específico, criar mapas de similaridade para interpretar suas previsões e muito mais! ?
Tarefa | Caderno | Descrição |
---|---|---|
Interpretabilidade | ColPali: Gere seus próprios mapas de similaridade? | Gere seus próprios mapas de similaridade para interpretar as previsões do ColPali. |
Afinação | Ajuste o ColPali | Ajuste o ColPali usando LoRA e quantização opcional de 4 bits/8 bits. |
Interpretabilidade | ColQwen2: Gere seus próprios mapas de similaridade? | Gere seus próprios mapas de similaridade para interpretar as previsões do ColQwen2. |
pano | ColQwen2: Um modelo para todo o seu pipeline RAG com troca a quente do adaptador | Economize VRAM usando um VLM exclusivo para todo o pipeline RAG. Funciona até na GPU T4 gratuita do Colab! |
A maneira mais fácil de usar os notebooks é abri-los no diretório examples
e clicar no botão Colab abaixo:
Isso abrirá o notebook no Google Colab, onde você poderá executar o código e experimentar os modelos.
Se preferir executar os notebooks localmente, você pode clonar o repositório e abrir os notebooks no Jupyter Notebook ou no seu IDE.
ColPali: Recuperação Eficiente de Documentos com Modelos de Linguagem Vision
Autores: Manuel Faysse *, Hugues Sibille *, Tony Wu *, Bilel Omrani, Gautier Viaud, Céline Hudelot, Pierre Colombo (* denota contribuição igual)
@misc{faysse2024colpaliefficientdocumentretrieval,
title={ColPali: Efficient Document Retrieval with Vision Language Models},
author={Manuel Faysse and Hugues Sibille and Tony Wu and Bilel Omrani and Gautier Viaud and Céline Hudelot and Pierre Colombo},
year={2024},
eprint={2407.01449},
archivePrefix={arXiv},
primaryClass={cs.IR},
url={https://arxiv.org/abs/2407.01449},
}