[ColPali Engine] [Бенчмарк ViDoRe]
С нашей новой моделью ColPali мы предлагаем использовать VLM для создания эффективных многовекторных вложений в визуальное пространство для поиска документов. Подавая выходные патчи ВИТ из PaliGemma-3B в линейную проекцию, мы создаём многовекторное представление документов. Мы обучаем модель так, чтобы максимизировать сходство между этими внедрениями документов и внедрениями запросов, следуя методу ColBERT.
Использование ColPali устраняет необходимость в потенциально сложных и хрупких конвейерах распознавания макетов и оптического распознавания символов с помощью единой модели, которая может учитывать как текстовое, так и визуальное содержимое (макет, диаграммы и т. д.) документа.
В этом репозитории содержатся блокноты для изучения семейства моделей ColVision, их точной настройки для вашего конкретного случая использования, создания карт сходства для интерпретации их прогнозов и многого другого! ?
Задача | Блокнот | Описание |
---|---|---|
Интерпретируемость | ColPali: Создайте свои собственные карты сходства? | Создайте свои собственные карты сходства, чтобы интерпретировать прогнозы ColPali. |
Тонкая настройка | Точная настройка ColPali | Точная настройка ColPali с использованием LoRA и дополнительного 4-битного/8-битного квантования. |
Интерпретируемость | ColQwen2: Создать свои собственные карты сходства? | Создайте свои собственные карты сходства, чтобы интерпретировать предсказания ColQwen2. |
ТРЯПКА | ColQwen2: Одна модель для всего конвейера RAG с возможностью горячей замены адаптера | Экономьте VRAM, используя уникальный VLM для всего конвейера RAG. Работает даже на бесплатном графическом процессоре T4 от Colab! |
Самый простой способ использовать блокноты — открыть их из каталога examples
и нажать кнопку Colab ниже:
Откроется блокнот в Google Colab, где вы сможете запустить код и поэкспериментировать с моделями.
Если вы предпочитаете запускать блокноты локально, вы можете клонировать репозиторий и открыть блокноты в Jupyter Notebook или в вашей IDE.
ColPali: эффективный поиск документов с помощью языковых моделей Vision
Авторы: Мануэль Файсс *, Хьюг Сибилле *, Тони Ву *, Билель Омрани, Готье Вио, Селин Юдело, Пьер Коломбо (* означает равный вклад)
@misc{faysse2024colpaliefficientdocumentretrieval,
title={ColPali: Efficient Document Retrieval with Vision Language Models},
author={Manuel Faysse and Hugues Sibille and Tony Wu and Bilel Omrani and Gautier Viaud and Céline Hudelot and Pierre Colombo},
year={2024},
eprint={2407.01449},
archivePrefix={arXiv},
primaryClass={cs.IR},
url={https://arxiv.org/abs/2407.01449},
}