Téléchargement BLIVA - Téléchargement du code source BLIVA

BLIVA

Code Source AI

1.0.0

Télécharger

BLIVA : un LLM multimodal simple pour une meilleure gestion des questions visuelles riches en texte

Wenbo Hu*, Yifan Xu*, Yi Li, Weiyue Li, Zeyuan Chen et Zhuowen Tu. *Contribution égale

Université de Californie à San Diego , Coinbase Global, Inc.

Notre architecture de modèle en détail avec des exemples de réponses.

Libérer

[12/08] BLIVA est accepté par l'AAAI 2024.
[9/13] Nous avons publié le code de formation de BLIVA.
[9/06] Nous avons publié des diapositives de démonstration pour que les chercheurs et les travailleurs concernés puissent en apprendre davantage sur les capacités et les cas d'utilisation de BLIVA.
[8/28] Notre modèle a atteint le numéro 3 dans les tâches de perception et le numéro 2 dans les tâches de cognition sur le benchmark MME, améliorant de 6 positions par rapport à notre référence dans les tâches de perception et de 5 positions dans les tâches de cognition. BLIVA a obtenu la première place dans les sous-tâches Couleur, Affiche et Raisonnement de bon sens .
[8/21] Nous avons publié BLIVA : un LLM multimodal simple pour une meilleure gestion des questions visuelles riches en texte . Récupérez le papier.
[8/21] Nous avons publié notre démo ici, qui est accessible au public pour que tout le monde puisse jouer avec. Si l’instance spatiale huggingface est arrêtée, n’hésitez pas à la relancer. Le temps d'attente est d'environ 30 secondes.
[8/21] Nous avons publié notre poids modèle pour la version BLIVA Vicuna ici et la version FLAN T5 ici qui est disponible pour un usage commercial.
[8/21] Notre ensemble de données de réponse visuelle aux questions YouTube (YTTB-VQA) est disponible ici.

Performances sur les benchmarks VQA riches en texte

Méthode	STVQA	OCRVQA	TexteVQA	DocVQA	InfoVQA	GraphiqueQA	ESTVQA	FONDS	SROIE	POIE	Moyenne
OuvrirFlamingo	19h32	27.82	29.08	5.05	14,99	9.12	28h20	0,85	0,12	2.12	13.67
BLIP2-OPT	13.36	10.58	21h18	0,82	8,82	7.44	27.02	0,00	0,00	0,02	8,92
BLIP2-FLanT5XXL	21h38	30.28	30.62	16h00	10.17	7h20	42.46	1.19	0,20	2,52	15h00
MiniGPT4	14.02	11h52	18.72	2,97	13h32	4.32	28.36	1.19	0,04	1.31	9.58
LLaVA	22.93	15.02	28h30	4h40	13.78	7.28	33.48	1.02	0,12	2.09	12.84
mPLUG-Chouette	26h32	35h00	37.44	6.17	16h46	9.52	49,68	1.02	0,64	3.26	18h56
InstruireBLIP (FLANT5XXL)	26.22	55.04	36,86	4,94	10.14	8.16	43,84	1,36	0,50	1,91	18h90
InstructBLIP (Vicuna-7B)	28.64	47.62	39.60	5,89	13h10	5.52	47,66	0,85	0,64	2,66	19.22
BLIVA (FLANT5XXL)	28.24	61.34	39.36	5.22	10.82	9.28	45,66	1,53	0,50	2,39	20h43
BLIVA (Vigogne-7B)	29.08	65.38	42.18	6.24	13h50	8.16	48.14	1.02	0,88	2,91	21h75

Performances sur les benchmarks VQA généraux (pas particulièrement riches en texte)

Méthode	VSR	IcôneQA	TexteVQA	Cadran visuel	Flickr30K	HM	Visualisation	MSRVTT
Flamant-3B	-	-	30.1	-	60,6	-	-	-
Flamant-9B	-	-	31,8	-	61,5	-	-	-
Flamant-80B	-	-	35,0	-	67.2	-	-	-
MiniGPT-4	50,65	-	18h56	-	-	29,0	34,78	-
LLaVA	56.3	-	37,98	-	-	9.2	36,74	-
BLIP-2 (Vigogne-7B)	50,0	39,7	40.1	44,9	74,9	50,2	49.34	4.17
InstructBLIP (Vicuna-7B)	54.3	43.1	50,1	45.2	82,4	54,8	43.3	18.7
BLIVA (Vigogne-7B)	62.2	44,88	57,96	45.63	87.1	55,6	42,9	23.81

Installation

Créer un environnement conda

conda create -n bliva python=3.9
conda activate bliva

construire à partir des sources

git clone https://github.com/mlpc-ucsd/BLIVA
cd BLIVA
pip install -e .

Préparer le poids

BLIVA Vigogne 7B
Notre modèle version Vicuna est publié ici. Téléchargez notre poids de modèle et spécifiez le chemin dans la configuration du modèle ici à la ligne 8.
Le LLM que nous avons utilisé est la version v0.1 de Vicuna-7B. Pour préparer le poids de Vicuna, veuillez vous référer à nos instructions ici. Ensuite, définissez le chemin d'accès au poids de la vigogne dans le fichier de configuration du modèle ici, sur la ligne 21.
BLIVA FlanT5 XXL (disponible pour un usage commercial)
Le modèle de la version FlanT5 est publié ici. Téléchargez notre poids de modèle et spécifiez le chemin dans la configuration du modèle ici à la ligne 8.
Le poids LLM pour Flant5 commencera automatiquement à être téléchargé depuis huggingface lors de l'exécution de notre code d'inférence.

Inférence

Pour répondre à une question de l’image, exécutez le code d’évaluation suivant. Par exemple,

python evaluate.py --answer_qs 
        --model_name bliva_vicuna 
        --img_path images/example.jpg 
        --question " what is this image about? "

Nous prenons également en charge les réponses aux questions à choix multiples, qui sont les mêmes que celles que nous avons utilisées pour les tâches d'évaluation sur papier. Pour fournir une liste de choix, il doit s'agir d'une chaîne divisée par une virgule. Par exemple,

python evaluate.py --answer_mc 
        --model_name bliva_vicuna 
        --img_path images/mi6.png 
        --question " Which genre does this image belong to? " 
        --candidates " play, tv show, movie "

Démo

Notre démo est accessible au public ici. Pour exécuter notre démo localement sur votre machine. Courir:

python demo.py

Former

Après avoir téléchargé les ensembles de données de formation et spécifié leur chemin dans les configurations des ensembles de données, nous sommes prêts pour la formation. Nous avons utilisé 8x A6000 Ada dans nos expériences. Veuillez ajuster les hyperparamètres en fonction de vos ressources GPU. Le chargement du modèle peut prendre environ 2 minutes aux transformateurs, ce qui laisse un peu de temps au modèle pour commencer l'entraînement. Nous donnons ici un exemple de formation de la version BLIVA Vicuna, la version Flant5 suit le même format.

Préformation de la branche assistant visuel de BLIVA

torchrun --nnodes=1 --nproc_per_node=8 
    train.py 
    --cfg-path train_configs/pretrain_bliva_vicuna.yaml

Instructions de réglage fin du BLIVA

torchrun --nnodes=1 --nproc_per_node=8 
    train.py 
    --cfg-path train_configs/finetune_bliva_vicuna.yaml

Ou bien, nous prenons également en charge la formation de Vicuna7b avec BLIVA en utilisant LoRA au cours de la deuxième étape, par défaut nous n'utilisons pas cette version.

torchrun --nnodes=1 --nproc_per_node=8 
    train.py 
    --cfg-path train_configs/finetune_bliva_and_vicuna.yaml

Citation

Si vous trouvez BLIVA utile pour vos recherches et applications, veuillez citer en utilisant ce BibTeX :

 @misc { hu2023bliva ,
      title = { BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions } , 
      author = { Wenbo Hu and Yifan Xu and Yi Li and Weiyue Li and Zeyuan Chen and Zhuowen Tu } ,
      publisher = { arXiv:2308.09936 } ,
      year = { 2023 } ,
}

Reconnaissance

BLIP2 L'architecture modèle de BLIVA suit BLIP-2. N'oubliez pas de consulter cet excellent travail open source si vous ne le connaissez pas auparavant.
Lavis La base de code sur laquelle nous avons construit.
Vicuna Vicuna-13B démontre une capacité linguistique fantastique et est open source.
MultimodalOCR Un excellent pipeline d'évaluation OCR multimodalité que nous avons suivi.
MME Un référentiel d'évaluation complet pour les grands modèles de langage multimodaux sur lesquels nous avons testé notre modèle.

Licence

Le code de ce référentiel est sous licence BSD à 3 clauses. De nombreux codes sont basés sur Lavis avec une licence BSD à 3 clauses ici.

Pour nos paramètres de modèle de BLIVA Vicuna Version, il doit être utilisé sous la licence de modèle de LLaMA. Pour le poids du modèle BLIVA FlanT5, il est sous licence Apache 2.0. Pour nos données YTTB-VQA, c'est sous CC BY NC 4.0

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2024-12-14
taille 11.08MB
Provenant de Github

Applications connexes

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
node telegram bot api

Code Source AI

v0.50.0
typebot.io

Code Source AI

v3.1.2
python wechaty getting started

Code Source AI

1.0.0
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout