L'Université de Pékin et d'autres équipes de recherche scientifique ont récemment publié le modèle open source multimodal LLaVA-o1. Ce modèle présente des avantages significatifs dans le domaine du raisonnement multimodal et est connu comme le premier modèle de langage visuel capable de raisonnement spontané et systématique. performances comparables à GPT-o1. LLaVA-o1 utilise un mécanisme de raisonnement de « réflexion lente » pour décomposer le processus de raisonnement en quatre étapes : résumé, explication visuelle, raisonnement logique et génération de conclusions, évitant ainsi efficacement les erreurs causées par la simplification du processus de raisonnement du modèle traditionnel. Le modèle a surpassé de nombreux concurrents sur six tests de référence difficiles et a surpassé les comparaisons avec des modèles plus grands ou à source fermée, avec sa version à paramètres 11B se démarquant.
Récemment, l'Université de Pékin et d'autres équipes de recherche scientifique ont annoncé la sortie d'un modèle open source multimodal appelé LLaVA-o1, qui serait le premier modèle de langage visuel capable de raisonnement spontané et systématique, comparable à GPT-o1.
Le modèle fonctionne bien sur six benchmarks multimodaux difficiles, avec sa version à paramètres 11B surpassant d'autres concurrents tels que Gemini-1.5-pro, GPT-4o-mini et Llama-3.2-90B-Vision-Instruct.
LLaVA-o1 est basé sur le modèle Llama-3.2-Vision et adopte un mécanisme de raisonnement de « pensée lente », qui peut mener indépendamment des processus de raisonnement plus complexes, surpassant la méthode traditionnelle d'invite de la chaîne de pensée.
Sur le benchmark d'inférence multimodale, LLaVA-o1 a surperformé son modèle de base de 8,9 %. Le modèle est unique dans la mesure où son processus de raisonnement est divisé en quatre étapes : résumé, explication visuelle, raisonnement logique et génération de conclusions. Dans les modèles traditionnels, le processus de raisonnement est souvent relativement simple et peut facilement conduire à de mauvaises réponses, tandis que LLaVA-o1 garantit des résultats plus précis grâce à un raisonnement structuré en plusieurs étapes.
Par exemple, lors de la résolution du problème « Combien d'objets reste-t-il après avoir soustrait toutes les petites boules lumineuses et les objets violets ? », LLaVA-o1 résumera d'abord le problème, puis extraira les informations de l'image, puis effectuera un raisonnement étape par étape. , et enfin donner la réponse. Cette approche par étapes améliore les capacités de raisonnement systématique du modèle, le rendant plus efficace dans le traitement de problèmes complexes.
Il convient de mentionner que LLaVA-o1 introduit une méthode de recherche de faisceau au niveau de l'étage dans le processus d'inférence. Cette approche permet au modèle de générer plusieurs réponses candidates à chaque étape d'inférence et de sélectionner la meilleure réponse pour passer à l'étape d'inférence suivante, améliorant ainsi considérablement la qualité globale de l'inférence. Grâce à un réglage fin supervisé et à des données d'entraînement raisonnables, LLaVA-o1 fonctionne bien en comparaison avec des modèles plus grands ou à source fermée.
Les résultats de recherche de l’équipe de l’Université de Pékin favorisent non seulement le développement de l’IA multimodale, mais fournissent également de nouvelles idées et méthodes pour les futurs modèles de compréhension du langage visuel. L'équipe a déclaré que le code, les poids de pré-entraînement et les ensembles de données de LLaVA-o1 seront entièrement open source, et elle attend avec impatience que davantage de chercheurs et de développeurs explorent et appliquent conjointement ce modèle innovant.
Article : https://arxiv.org/abs/2411.10440
GitHub : https://github.com/PKU-YuanGroup/LLaVA-o1
Souligner:
LLaVA-o1 est un nouveau modèle de raisonnement multimodal publié par l'Université de Pékin et d'autres équipes, avec des capacités de raisonnement de « réflexion lente ».
Le modèle surpasse le modèle de base de 8,9 % dans le test de référence d'inférence multimodale.
LLaVA-o1 garantit l'exactitude grâce à un raisonnement structuré en plusieurs étapes et sera open source dans un avenir proche.
L'open source de LLaVA-o1 favorisera la recherche et le développement dans le domaine de l'IA multimodale et fournira une base solide pour la construction de modèles de langage visuel plus intelligents et plus puissants. Nous sommes impatients de voir plus de potentiel de ce modèle dans les applications futures. Les articles et les liens GitHub qu'il fournit permettent aux chercheurs de comprendre et d'utiliser le modèle en profondeur.