[ColPali 엔진] [ViDoRe 벤치마크]
새로운 모델 ColPali를 통해 VLM을 활용하여 문서 검색을 위한 시각적 공간에 효율적인 다중 벡터 임베딩을 구성할 것을 제안합니다. PaliGemma-3B의 ViT 출력 패치를 선형 투영에 공급하여 문서의 다중 벡터 표현을 생성합니다. ColBERT 방법에 따라 이러한 문서 임베딩과 쿼리 임베딩 간의 유사성을 최대화하도록 모델을 훈련합니다.
ColPali를 사용하면 문서의 텍스트 및 시각적 콘텐츠(레이아웃, 차트 등)를 모두 고려할 수 있는 단일 모델을 통해 잠재적으로 복잡하고 부서지기 쉬운 레이아웃 인식 및 OCR 파이프라인에 대한 필요성이 제거됩니다.
이 저장소에는 ColVision 모델 제품군에 대해 학습하고, 특정 사용 사례에 맞게 미세 조정하고, 유사성 맵을 생성하여 예측을 해석하는 등의 작업을 위한 노트북이 포함되어 있습니다. ?
일 | 공책 | 설명 |
---|---|---|
해석 가능성 | ColPali: 자신만의 유사성 맵을 생성하시겠습니까? | ColPali의 예측을 해석하기 위해 자신만의 유사성 맵을 생성하세요. |
미세 조정 | ColPali 미세 조정 | LoRA 및 선택적 4비트/8비트 양자화를 사용하여 ColPali를 미세 조정합니다. |
해석 가능성 | ColQwen2: 자신만의 유사성 맵을 생성하시겠습니까? | ColQwen2의 예측을 해석하기 위해 자신만의 유사성 맵을 생성하세요. |
조각 | ColQwen2: 어댑터 핫스왑 기능을 갖춘 전체 RAG 파이프라인을 위한 단일 모델 | 전체 RAG 파이프라인에 고유한 VLM을 사용하여 VRAM을 절약하세요. Colab의 무료 T4 GPU에서도 작동합니다! |
노트북을 사용하는 가장 쉬운 방법은 examples
디렉터리에서 노트북을 열고 아래 Colab 버튼을 클릭하는 것입니다.
그러면 코드를 실행하고 모델을 실험할 수 있는 Google Colab의 노트북이 열립니다.
노트북을 로컬로 실행하려는 경우 저장소를 복제하고 Jupyter Notebook 또는 IDE에서 노트북을 열 수 있습니다.
ColPali: 비전 언어 모델을 사용한 효율적인 문서 검색
저자: Manuel Faysse *, Hugues Sibille *, Tony Wu *, Bilel Omrani, Gautier Viaud, Céline Hudelot, Pierre Colombo (*는 균등 기여를 나타냄)
@misc{faysse2024colpaliefficientdocumentretrieval,
title={ColPali: Efficient Document Retrieval with Vision Language Models},
author={Manuel Faysse and Hugues Sibille and Tony Wu and Bilel Omrani and Gautier Viaud and Céline Hudelot and Pierre Colombo},
year={2024},
eprint={2407.01449},
archivePrefix={arXiv},
primaryClass={cs.IR},
url={https://arxiv.org/abs/2407.01449},
}