[04/10/2024] ? LLaVA-Video (anciennement LLaVA-NeXT-Video) a subi une mise à jour majeure ! Nous sommes ravis de publier LLaVA-Video-178K , un ensemble de données synthétiques de haute qualité pour le réglage des instructions vidéo. Cet ensemble de données comprend :
Parallèlement à cela, nous lançons également les modèles LLaVA-Video 7B/72B , qui offrent des performances compétitives sur les derniers benchmarks vidéo, notamment Video-MME, LongVideoBench et Dream-1K.
Explorez davantage :
Ensemble de données LLaVA-Video-178K : Téléchargez l'ensemble de données.
Modèles LLaVA-Video : accédez aux points de contrôle des modèles.
Papier : Informations détaillées sur LLaVA-Vidéo.
Documentation LLaVA-Vidéo : Conseils sur la formation, l'inférence et l'évaluation.
178 510 entrées de sous-titres
960 792 paires de questions/réponses ouvertes
196 198 questions et réponses à choix multiples
[2024/09/13] ? ? LLaVA-OneVision-Chat . Le nouveau LLaVA-OV-Chat (7B/72B) améliore considérablement l'expérience de chat de LLaVA-OV. ?
[06/08/2024] ? ? LLaVA-OneVision (OV) ! Les nouveaux modèles LLaVA-OV (0,5B/7B/72B) atteignent de nouvelles performances de pointe dans les tests d'image unique, multi-images et vidéo, rivalisant parfois avec les meilleurs modèles commerciaux sur 47 tests différents. ? Explorez davantage :
[Article] : Informations approfondies, nouveaux scénarios émergents, c'est-à-dire une solide compréhension de la vidéo grâce au transfert de tâches à partir d'images.
[LLaVA-OV Doc] : Guide d'inférence et d'évaluation de modèles.
[Scripts] : démarrez la formation de modèles sur vos données d'image unique/multi-images/vidéo.
[2024/07/16] ? LLaVA-NeXT-Video a été mis à niveau. Le nouveau modèle 32B atteint les meilleures performances open source sur plusieurs benchmarks vidéo, dont Video-MME. Veuillez vous référer à cette page pour plus de détails, reportez-vous à llava_next-video_demo pour une démo.
[2024/06/23] ? LLaVA-NeXT-Interleave est disponible. Nous utilisons le format image-texte entrelacé pour unifier les tâches multi-images, vidéo et 3D dans un seul LLM et atteindre les performances SoTA sur un large éventail de tests. Consultez le papier, le blog et les points de contrôle pour découvrir de nouvelles fonctionnalités et des performances améliorées ! Nous avons publié des modèles 0,5b, 7b et 7b-dpo.
Un LLM complet pour le multi-images, la vidéo et la 3D avec de solides performances [démo]
Construire des données d'entraînement entrelacées M4-Instruct
Construire un banc d'essai multi-images LLaVA-Interleave
[2024/05/25] ? Vous vous demandez : « Qu'est-ce qui influence le réglage de l'instruction visuelle au-delà des données ? » Notre nouveau blog résume les explorations empiriques visant à éliminer les différents choix de conception pour améliorer les LMM, à l'exception des données d'instruction elles-mêmes. Pendant ce temps, ouvrez la source des données récapitulées de haute qualité en utilisant LLaVA-NeXT-34B sur [COCO] [LCS] [CC3M].
Architectures (LMM & Vision Encodeur)
Représentations visuelles (résolution et # jetons)
Stratégies de formation (données de haute qualité et modules formables)
[2024/05/10] ? Des modèles LLaVA-NeXT (plus forts) sont lancés, avec la prise en charge de LMM plus puissants, notamment LLama-3 (8B) et Qwen-1.5 (72B/110B). Consultez [blog] et [checkpoints] pour voir des performances améliorées !
[2024/05/10] ? LLaVA-NeXT (Vidéo) est disponible. Le modèle LLaVA-NeXT entraîné uniquement par l'image est étonnamment puissant sur les tâches vidéo avec transfert de modalité zéro-shot. La formation DPO avec retour d’IA sur les vidéos peut apporter des améliorations significatives. [Blog], [points de contrôle] et [sglang]
[30/01/2024] ? LLaVA-NeXT est sorti ! Avec une mise à l'échelle supplémentaire vers LLaVA-1.5, LLaVA-NeXT-34B surpasse Gemini Pro sur certains benchmarks. Il peut désormais traiter 4 fois plus de pixels et effectuer plus de tâches/applications qu'auparavant. Consultez l'article de blog et explorez la démo ! Les modèles sont disponibles dans Model Zoo. Données et scripts de formation/évaluation à venir.
[2024/03/10] ? Sortie de LMMs-Eval , un pipeline d'évaluation très efficace que nous avons utilisé lors du développement de LLaVA-NeXT. Il prend en charge l'évaluation des LMM sur des dizaines d'ensembles de données publics et permet l'intégration de nouveaux ensembles de données, ce qui rend le développement de nouveaux LMM beaucoup plus rapide. [Blog] [Base de code]
[2023/11/10] LLaVA-Plus est publié : Apprendre à utiliser des outils pour créer des agents multimodaux, avec LLaVA-Plus (LLaVA qui branche et apprend à utiliser des compétences). [Page du projet] [Démo] [Code] [Papier]
[02/11/2023] Sortie de LLaVA-Interactive : découvrez l'avenir de l'interaction multimodale homme-IA avec une démo tout-en-un pour le chat d'images, la segmentation, la génération et l'édition. [Page du projet] [Démo] [Code] [Papier]
[2023/10/26] ? LLaVA-1.5 avec LoRA atteint des performances comparables à celles du réglage fin du modèle complet, avec un besoin réduit de RAM GPU (ckpts, script). Nous fournissons également une documentation expliquant comment affiner LLaVA-1.5 sur votre propre ensemble de données avec LoRA.
[2023/10/12] Découvrez le LLaVA coréen (Ko-LLaVA), créé par ETRI, qui a généreusement soutenu nos recherches ! [? Démo]
[2023/10/05] ? LLaVA-1.5 est sorti ! La réalisation de SoTA sur 11 benchmarks, avec de simples modifications du LLaVA d'origine, utilise toutes les données publiques, termine la formation en environ 1 jour sur un seul nœud 8-A100 et surpasse les méthodes comme Qwen-VL-Chat qui utilisent des données à l'échelle d'un milliard. Consultez le rapport technique et explorez la démo ! Les modèles sont disponibles dans Model Zoo. Les données de formation et les scripts de LLaVA-1.5 sont publiés ici, et les scripts d'évaluation sont publiés ici !
[2023/09/26] LLaVA est amélioré grâce à l'apprentissage par renforcement à partir de la rétroaction humaine (RLHF) pour améliorer l'ancrage des faits et réduire les hallucinations. Découvrez les nouveaux points de contrôle SFT et RLHF sur le projet [LLavA-RLHF]
[2023/09/22] LLaVA est acceptée par NeurIPS 2023 comme présentation orale , et LLaVA-Med est acceptée par NeurIPS 2023 Datasets and Benchmarks Track comme présentation phare .
[2023/11/06] Prise en charge des plates-formes Intel dGPU et CPU. Plus de détails ici.
[2023/10/12] LLaVA est désormais pris en charge dans llama.cpp avec prise en charge de la quantification 4 bits/5 bits !
[2023/10/11] Les données de formation et les scripts de LLaVA-1.5 sont publiés ici, et les scripts d'évaluation sont publiés ici !
[2023/10/10] Roboflow Deep Dive : premières impressions avec LLaVA-1.5.
[20/09/2023] Nous résumons notre étude empirique de la formation des modèles LLaVA 33B et 65B dans une note. De plus, si vous êtes intéressé par l'examen complet, l'évolution et la tendance des modèles de fondations multimodales, veuillez consulter notre récent document d'enquête « Modèles de fondations multimodales : des spécialistes aux assistants polyvalents ».
[2023/07/19] ? Nous publions une mise à niveau majeure, comprenant la prise en charge de LLaMA-2, la formation LoRA, l'inférence 4/8 bits, une résolution plus élevée (336 x 336) et bien plus encore. Nous publions LLaVA Bench pour évaluer le chat visuel ouvert avec les résultats de Bard et Bing-Chat. Nous prenons également en charge et vérifions les formations avec RTX 3090 et RTX A6000. Découvrez LLaVA-from-LLaMA-2 et notre zoo modèle !
[2023/06/26] Tutoriel CVPR 2023 sur les grands modèles multimodaux : vers la construction et le dépassement du GPT-4 multimodal ! Veuillez consulter [Diapositives] [Notes] [YouTube] [Bililib].
[2023/06/11] Nous avons publié l'aperçu de la fonctionnalité la plus demandée : la prise en charge de DeepSpeed et LoRA ! Veuillez consulter les documentations ici.
[2023/06/01] Nous avons publié LLaVA-Med : Large Language and Vision Assistant for Biomedicine , une étape vers la création de grands modèles de langage et de vision du domaine biomédical avec des capacités de niveau GPT-4. Récupérez le papier et la page.
[2023/05/06] Nous publions un aperçu de LLaVA-Lighting-MPT-7B, basé sur MPT-7B-Chat ! Voir ici pour plus de détails.
[02/05/2023] ? Nous lançons LLaVA-Lighting ! Entraînez un GPT-4 léger et multimodal avec seulement 40 $ en 3 heures ! Voir ici pour plus de détails.
[2023/04/27] Grâce à l'effort de la communauté, le LLaVA-13B avec quantification 4 bits vous permet de fonctionner sur un GPU avec seulement 12 Go de VRAM ! Essayez-le ici.
[2023/04/17] ? Nous avons publié LLaVA : Large Language and Vision Assistant . Nous proposons un réglage des instructions visuelles, vers la création de grands modèles de langage et de vision avec des capacités de niveau GPT-4. Consultez le document et la démo.
Avis d'utilisation et de licence : ce projet utilise certains ensembles de données et points de contrôle qui sont soumis à leurs licences d'origine respectives. Les utilisateurs doivent se conformer à tous les termes et conditions de ces licences originales, y compris, mais sans s'y limiter, les conditions d'utilisation d'OpenAI pour l'ensemble de données et les licences spécifiques pour les modèles de langage de base pour les points de contrôle formés à l'aide de l'ensemble de données (par exemple, licence communautaire Llama-1/2 pour LLaMA-2 et Vicuna-v1.5, CONTRAT DE LICENCE DE RECHERCHE Tongyi Qianwen et Licence de recherche Llama-3). Ce projet n'impose aucune contrainte supplémentaire au-delà de celles stipulées dans les licences originales. En outre, il est rappelé aux utilisateurs de s'assurer que leur utilisation de l'ensemble de données et des points de contrôle est conforme à toutes les lois et réglementations applicables.
clone git https://github.com/LLaVA-VL/LLaVA-NeXTcd LLaVA-NeXT
conda create -n appel python=3.10 -y conda active la lave pip install --upgrade pip # Activer PEP 660 support.pip install -e ".[train]"
Veuillez consulter la page suivante pour plus de détails sur l'inférence et l'évaluation.
LLaVA-OneVision : pour l'inférence de démonstration. Le code d'évaluation est dans lmms-eval.
LLaVA-NeXT-Image : pour l'inférence de démonstration d'images et l'évaluation de LMM plus puissants à l'aide de lmms-eval.
LLaVA-NeXT-Video : pour les scripts d'inférence et d'évaluation vidéo. Nous vous recommandons d'utiliser la vidéo LMM pour l'évaluation.
LLaVA-NeXT-Interleave : pour les scripts de démonstration et d'évaluation multi-images.
Nous utilisons SGLang pour accélérer l'inférence et le déploiement de LLaVA-NeXT. Vous pouvez faire de LLaVA-NeXT un service API backend avec SGLang.
Préparer l'environnement : Suivre les instructions du sglang
Consultez l'utilisation de HTTP Post/Get et SRT sur sglang/examples/runtime/llava_onevision
Lancer et exécuter sur (K) nœuds :
Aller au projet sglang
cd PATH_TO/sglang
Premier nœud :
bash examples/usage/llava_video/srt_example_llava_v.sh K 0 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO (par exemple bash examples/usage/llava_video/srt_example_llava_v.sh K 0 examples/usage/llava_video/videos/Q98Z4OTh8RwmDonc.mp4 lmms-lab/LLaVA-NeXT-Video-7B-DPO 16)
Deuxième nœud :
bash examples/usage/llava_video/srt_example_llava_v.sh K 1 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO
Le nœud K :
bash examples/usage/llava_video/srt_example_llava_v.sh K K-1 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO
Si vous le trouvez utile pour vos recherches et applications, veuillez citer les articles/blogs associés en utilisant ce BibTeX :
@article{li2024llava, title={LLaVA-NeXT-Interleave : Aborder le multi-image, la vidéo et la 3D dans les grands modèles multimodaux}, author={Li, Feng et Zhang, Renrui et Zhang, Hao et Zhang, Yuanhan et Li, Bo et Li, Wei et Ma, Zejun et Li, Chunyuan}, journal={arXiv preprint arXiv:2407.07895}, year={2024}}@misc{li2024llavanext-ablations, title={LLaVA-NeXT : qu'est-ce qui influence le réglage de l'instruction visuelle au-delà des données ?}, url={https://llava-vl.github.io/blog/2024- 05-25-llava-next-ablations/}, auteur={Li, Bo et Zhang, Hao et Zhang, Kaichen et Guo, Dong et Zhang, Yuanhan et Zhang, Renrui et Li, Feng et Liu, Ziwei et Li, Chunyuan}, mois={Mai}, année={2024}}@misc{li2024llavanext-strong,title={LLaVA-NeXT : Plus fort Les LLM renforcent les capacités multimodales dans le Wild},url={https://llava-vl.github.io/blog/2024-05-10-llava-next-stronger-llms/},author={Li, Bo et Zhang, Kaichen et Zhang, Hao et Guo, Dong et Zhang, Renrui et Li, Feng et Zhang, Yuanhan et Liu, Ziwei et Li, Chunyuan},month={Mai},year={2024}}@misc{zhang2024llavanext-video, title={LLaVA-NeXT : Un solide modèle de compréhension de la vidéo Zero-shot}, url={https://llava-vl. github.io/blog/2024-04-30-llava-next-video/}, author={Zhang, Yuanhan et Li, Bo et Liu, haotian et Lee, Yong jae et Gui, Liangke et Fu, Di et Feng, Jiashi et Liu, Ziwei et Li, Chunyuan}, mois={avril}, année={2024}}@misc{liu2024llavanext,title={LLaVA-NeXT : Raisonnement, OCR et monde améliorés connaissances},url={https://llava-vl.github.io/blog/2024-01-30-llava-next/},author={Liu, Haotian et Li, Chunyuan et Li, Yuheng et Li, Bo et Zhang, Yuanhan et Shen, Sheng et Lee, Yong Jae},month={Janvier},year={2024}}@misc{liu2023improvedllava, title={Lignes de base améliorées avec réglage des instructions visuelles}, author={Liu, Haotian et Li, Chunyuan et Li, Yuheng et Lee, Yong Jae}, editor={arXiv:2310.03744}, année={2023}, }@misc{liu2023llava, title={Réglage des instructions visuelles}, author={Liu, Haotian et Li, Chunyuan et Wu, Qingyang et Lee, Yong Jae}, editor={NeurIPS}, année={2023}, }
Vicuna : la base de code sur laquelle nous avons construit et notre modèle de base Vicuna-13B qui possède des capacités linguistiques étonnantes !
Le projet LLaVA-NeXT est actuellement maintenu par l'équipe avec nos contributeurs (classés par ordre alphabétique des prénoms) : Bo Li, Dong Guo, Feng Li, Hao Zhang, Kaichen Zhang, Renrui Zhang, Yuanhan Zhang, dirigés par Chunyuan Li et avec les conseils et l'aide de Haotian Liu.
Le cadrelmms-eval
et ses principaux contributeurs, dont Peiyuan Zhang, Fanyi Pu, Joshua Adrian Cahyono et Kairui Hu, pour leur soutien en matière d'évaluation.
Réglage des instructions avec GPT-4
LLaVA-Med : Former un grand assistant linguistique et visuel pour la biomédecine en une journée
Otter : réglage des instructions multimodales en contexte
Pour de futures idées de projets, veuillez consulter :
SEEM : segmentez tout partout, en même temps
Grounded-Segment-Anything pour détecter, segmenter et générer n'importe quoi en mariant Grounding DINO et Segment-Anything.