[Mesin ColPali] [Tolok Ukur ViDoRe]
Dengan model baru kami ColPali , kami mengusulkan untuk memanfaatkan VLM untuk membangun penyematan multi-vektor yang efisien dalam ruang visual untuk pengambilan dokumen. Dengan memasukkan patch keluaran ViT dari PaliGemma-3B ke proyeksi linier, kami membuat representasi dokumen multi-vektor. Kami melatih model untuk memaksimalkan kemiripan antara penyematan dokumen ini dan penyematan kueri, dengan mengikuti metode ColBERT.
Penggunaan ColPali menghilangkan kebutuhan akan pengenalan tata letak yang berpotensi rumit dan rapuh serta saluran OCR dengan satu model yang dapat memperhitungkan konten tekstual dan visual (tata letak, bagan, ...) suatu dokumen.
Repositori ini berisi buku catatan untuk mempelajari rangkaian model ColVision, menyempurnakannya untuk kasus penggunaan spesifik Anda, membuat peta kesamaan untuk menafsirkan prediksinya, dan banyak lagi! ?
Tugas | Buku catatan | Keterangan |
---|---|---|
Interpretasi | ColPali: Buat peta kesamaan Anda sendiri? | Hasilkan peta kesamaan Anda sendiri untuk menafsirkan prediksi ColPali. |
Penyempurnaan | Sempurnakan ColPali | Sempurnakan ColPali menggunakan LoRA dan kuantisasi 4bit/8bit opsional. |
Interpretasi | ColQwen2: Buat peta kesamaan Anda sendiri? | Hasilkan peta kesamaan Anda sendiri untuk menafsirkan prediksi ColQwen2. |
LAP | ColQwen2: Satu model untuk seluruh pipeline RAG Anda dengan hot-swapping adaptor | Simpan VRAM dengan menggunakan VLM unik untuk seluruh pipeline RAG Anda. Berfungsi bahkan pada GPU T4 gratis Colab! |
Cara termudah untuk menggunakan buku catatan adalah dengan membukanya dari direktori examples
dan klik tombol Colab di bawah:
Tindakan ini akan membuka notebook di Google Colab, tempat Anda dapat menjalankan kode dan bereksperimen dengan model.
Jika Anda lebih suka menjalankan buku catatan secara lokal, Anda dapat mengkloning repositori dan membuka buku catatan di Jupyter Notebook atau di IDE Anda.
ColPali: Pengambilan Dokumen yang Efisien dengan Model Bahasa Vision
Penulis: Manuel Faysse *, Hugues Sibille *, Tony Wu *, Bilel Omrani, Gautier Viaud, Céline Hudelot, Pierre Colombo (* menunjukkan kontribusi yang setara)
@misc{faysse2024colpaliefficientdocumentretrieval,
title={ColPali: Efficient Document Retrieval with Vision Language Models},
author={Manuel Faysse and Hugues Sibille and Tony Wu and Bilel Omrani and Gautier Viaud and Céline Hudelot and Pierre Colombo},
year={2024},
eprint={2407.01449},
archivePrefix={arXiv},
primaryClass={cs.IR},
url={https://arxiv.org/abs/2407.01449},
}