[ColPali Engine] [ViDoRe Benchmark]
Mit unserem neuen Modell ColPali schlagen wir vor, VLMs zu nutzen, um effiziente Multi-Vektor-Einbettungen im visuellen Raum für den Dokumentenabruf zu erstellen. Indem wir die ViT-Ausgabepatches von PaliGemma-3B in eine lineare Projektion einspeisen, erstellen wir eine Multivektordarstellung von Dokumenten. Wir trainieren das Modell, um die Ähnlichkeit zwischen diesen Dokumenteinbettungen und den Abfrageeinbettungen zu maximieren, indem wir der ColBERT-Methode folgen.
Durch die Verwendung von ColPali entfällt die Notwendigkeit potenziell komplexer und anfälliger Layouterkennungs- und OCR-Pipelines mit einem einzigen Modell, das sowohl den Text- als auch den visuellen Inhalt (Layout, Diagramme usw.) eines Dokuments berücksichtigen kann.
Dieses Repository enthält Notizbücher zum Kennenlernen der ColVision-Modellfamilie, zur Feinabstimmung für Ihren spezifischen Anwendungsfall, zum Erstellen von Ähnlichkeitskarten zur Interpretation ihrer Vorhersagen und mehr! ?
Aufgabe | Notizbuch | Beschreibung |
---|---|---|
Interpretierbarkeit | ColPali: Eigene Ähnlichkeitskarten erstellen? | Erstellen Sie Ihre eigenen Ähnlichkeitskarten, um die Vorhersagen von ColPali zu interpretieren. |
Feinabstimmung | Optimieren Sie ColPali | Optimieren Sie ColPali mithilfe von LoRA und optionaler 4-Bit-/8-Bit-Quantisierung. |
Interpretierbarkeit | ColQwen2: Eigene Ähnlichkeitskarten erstellen? | Erstellen Sie Ihre eigenen Ähnlichkeitskarten, um die Vorhersagen von ColQwen2 zu interpretieren. |
LAPPEN | ColQwen2: Ein Modell für Ihre gesamte RAG-Pipeline mit Adapter-Hot-Swapping | Sparen Sie VRAM, indem Sie ein einzigartiges VLM für Ihre gesamte RAG-Pipeline verwenden. Funktioniert sogar auf der kostenlosen T4-GPU von Colab! |
Der einfachste Weg, die Notizbücher zu verwenden, besteht darin, sie aus dem examples
zu öffnen und unten auf die Schaltfläche „Colab“ zu klicken:
Dadurch wird das Notizbuch in Google Colab geöffnet, wo Sie den Code ausführen und mit den Modellen experimentieren können.
Wenn Sie die Notebooks lieber lokal ausführen möchten, können Sie das Repository klonen und die Notebooks in Jupyter Notebook oder in Ihrer IDE öffnen.
ColPali: Effizienter Dokumentenabruf mit Vision-Language-Modellen
Autoren: Manuel Faysse *, Hugues Sibille *, Tony Wu *, Bilel Omrani, Gautier Viaud, Céline Hudelot, Pierre Colombo (* bezeichnet den gleichen Beitrag)
@misc{faysse2024colpaliefficientdocumentretrieval,
title={ColPali: Efficient Document Retrieval with Vision Language Models},
author={Manuel Faysse and Hugues Sibille and Tony Wu and Bilel Omrani and Gautier Viaud and Céline Hudelot and Pierre Colombo},
year={2024},
eprint={2407.01449},
archivePrefix={arXiv},
primaryClass={cs.IR},
url={https://arxiv.org/abs/2407.01449},
}