Lors de la conférence FORCE Motive Power du 18 décembre 2024, Volcano Engine a publié une mise à niveau complète de la grande famille de modèles de poufs. La plus accrocheuse est le lancement d'un nouveau modèle de compréhension visuelle. Le modèle prend en charge la saisie simultanée de texte et d'images, possède des capacités de reconnaissance, de compréhension et de raisonnement plus fortes et fournit des services aux utilisateurs à un prix très compétitif. Cette mise à niveau améliore non seulement les capacités d'application du grand modèle Beanbao dans divers domaines, mais marque également que la technologie de compréhension visuelle est entrée dans une nouvelle étape de développement, apportant des solutions d'IA plus pratiques et plus efficaces aux entreprises et aux développeurs.
Lors de la conférence Volcano Engine FORCE Motive Power du 18 décembre 2024, Volcano Engine a annoncé une mise à niveau complète de la grande famille de modèles Beanbao et a publié un tout nouveau modèle de compréhension visuelle.
Tan Dai, président de Volcano Engine, a déclaré que l'utilisation quotidienne moyenne des jetons du modèle Doubao a augmenté rapidement au cours des derniers mois, atteignant plus de 4 000 milliards, soit une multiplication par 33 par rapport à sa sortie en mai. Cette tendance croissante montre l’utilisation généralisée de grands modèles de poufs dans de multiples scénarios d’application.
Cette fois, Volcano Engine a lancé un modèle de compréhension visuelle, permettant aux utilisateurs de saisir des questions sous forme de texte et d'image en même temps, et le modèle peut comprendre de manière globale et donner des réponses précises. Cette innovation simplifiera considérablement le processus de développement d'applications et activera le potentiel des grands modèles dans davantage de scénarios.
Le modèle de compréhension visuelle possède de plus grandes capacités de reconnaissance de contenu. Il peut non seulement identifier des éléments de base tels que les catégories d'objets et les formes dans les images, mais également comprendre la relation entre les objets, la disposition spatiale et la signification globale de la scène. Par exemple, identifier les ombres, identifier les connaissances naturelles, etc.
Le modèle de compréhension visuelle a des capacités de compréhension et de raisonnement plus fortes. Il peut non seulement mieux identifier le contenu, mais également effectuer des calculs logiques complexes basés sur les informations de texte et d'image reconnues, tels que le raisonnement graphique et le raisonnement physique.
En outre, il possède également une capacité de description visuelle plus délicate, qui peut décrire le contenu de l'image plus en détail sur la base des informations de l'image, et peut également créer une variété de styles littéraires, tels que la création d'images, la création de poésie d'images, etc.
Le modèle de compréhension visuelle Doubao présente de larges perspectives d'application dans de nombreux domaines tels que l'éducation, le tourisme et le commerce électronique. Par exemple, dans l'éducation, le modèle peut aider les étudiants à optimiser leurs compositions et leurs connaissances en sciences populaires ; dans le tourisme, le modèle peut fournir aux touristes des traductions de menus étrangers et des explications sur leurs connaissances en matière d'architecture et de marketing du commerce électronique ; caractéristiques du produit en détail, améliorant ainsi l'efficacité de la publicité.
Le coût d'utilisation du modèle de compréhension visuelle est également très proche de celui des gens. Le prix pour mille jetons est de 0,003 yuan, soit 85 % de moins que le prix moyen du secteur. Ce niveau de prix permet à chaque dollar de traiter jusqu'à 284 images 720P, marquant l'entrée de la technologie de compréhension visuelle dans « l'ère centi ». De plus, Volcano Engine fournit également aux entreprises et aux développeurs jusqu'à 15 000 supports de trafic initial pour les aider à mieux utiliser cette technologie.
Lors de cette conférence, Volcano Engine a non seulement publié un modèle de compréhension visuelle, mais a également mis à niveau plusieurs autres modèles. La capacité globale de traitement des tâches de Doubao Universal Model Pro a augmenté de 32 % par rapport à mai, et des améliorations significatives ont également été constatées dans des domaines tels que le raisonnement, le suivi des instructions, le codage et les mathématiques. Parallèlement, le modèle pouf et génération vidéo sera ouvert au public en janvier 2025, et les entreprises pourront prendre rendez-vous pour l'utiliser.
Afin d'améliorer les capacités d'acquisition d'informations et de recommandation de recherche des entreprises, Volcano Engine a également lancé un service mondial de recherche d'IA pour aider les entreprises à mieux connecter les informations et les besoins des utilisateurs, et faciliter la transformation intelligente de diverses industries.
Points forts:
L'utilisation quotidienne moyenne des jetons de Doubao Big Model a atteint 4 000 milliards, soit une augmentation de 33 fois par rapport à mai.
Le modèle de compréhension visuelle récemment lancé prend en charge la saisie simultanée de texte et d'images et convient à des domaines tels que l'éducation, le tourisme et le commerce électronique.
Le coût d'utilisation pour mille jetons n'est que de 0,003 yuans, ce qui est nettement inférieur au prix moyen du secteur.
En bref, la mise à niveau du grand modèle de pouf et le nouveau modèle de compréhension visuelle publiés par Volcano Engine démontrent cette fois son innovation continue dans le domaine de l'intelligence artificielle et sa compréhension approfondie des besoins des utilisateurs, fournissant un solide support technique pour la transformation intelligente de diverses industries.