L’ère des applications d’IA est-elle vraiment là ?
Le thème de la conférence mondiale Baidu de cette année est "Les applications arrivent" - début novembre, la moyenne des appels quotidiens du grand modèle de Baidu Wenxin dépassait 1,5 milliard, soit une augmentation d'environ 30 fois par rapport aux 50 millions de fois divulgués pour la première fois par an. il y a. Robin Li a déclaré : « Cette courbe de croissance abrupte représente l'explosion des applications de grands modèles en Chine au cours des deux dernières années. »
En tant que forme d'application d'IA la plus répandue, les agents intelligents sont sur le point d'atteindre un point de rupture, a souligné Robin Li : « Ils deviendront un nouveau support de contenu, d'informations et de services à l'ère native de l'IA ».
En effet, « d'une part, le seuil de création d'un agent est suffisamment bas ; d'autre part, le plafond d'un agent est suffisamment élevé pour créer des applications très puissantes. La collaboration de plusieurs agents peut également résoudre des problèmes plus complexes. ." question."
Robin Li a présenté 4 types différents d'agents lors de la réunion, notamment les agents d'entreprise, les agents de rôle, les agents d'outils et les agents de l'industrie. Parmi eux, les renseignements officiels de l'entreprise sont susceptibles de remplacer le site officiel et de devenir l'interface la plus directe avec les consommateurs.
"Les agents de type entreprise sont équivalents aux sites Web officiels des entreprises à l'ère de l'IA. Les agents de type entreprise ont toutes les capacités dont disposent les sites Web officiels traditionnels, telles que les présentations de l'entreprise, les images de produits et l'affichage des paramètres, l'emplacement des magasins hors ligne, etc. Mais Les sites Web traditionnels n'ont pas la capacité d'agir de manière proactive. Des recommandations, une réponse rapide et des capacités de service individuel sont également disponibles dans l'agent intelligent de l'entreprise.
Robin Li a également publié l'outil sans code "Miaida" - un logiciel composé de grands modèles et d'agents capables de réaliser n'importe quelle idée sans écrire de code, y compris la programmation sans code, la collaboration multi-agents et l'appel à grande échelle de divers outils et d’autres capacités constituent « jusqu’à présent l’outil de collaboration multi-agents le plus complexe de l’histoire de l’humanité ».
Avec l'aide de « Miaoda », les utilisateurs peuvent terminer la construction de l'ensemble du système grâce à une interaction en langage naturel, et peuvent également réaliser diverses applications dans n'importe quel scénario. Avec l'amélioration des capacités du modèle de base et l'évolution des propres capacités techniques de Miaoda, davantage de possibilités peuvent être réalisées. être fait à l'avenir, des choses plus complexes, "Cela signifie que vous n'avez pas besoin de recruter des chefs de projet, des concepteurs, des développeurs, des testeurs, etc., vous pouvez demander à plusieurs agents d'accomplir des tâches en collaboration. Une personne peut être un A entier." équipe.
Selon les mots de Robin Li, avec Miaoda, nous inaugurerons une « ère où vous pouvez gagner de l’argent simplement en vous appuyant sur des idées ».
Après que l'activité côté C de Baidu Netdisk ait été reclassée au Mobile Ecosystem Group (MEG) en septembre et reprise par Wang Ying, vice-président de Baidu et responsable de la bibliothèque Baidu et de Baidu Netdisk, lors de cette conférence mondiale, Baidu Le disque réseau et la bibliothèque ont été davantage intégrées.
Wang Ying a partagé certains des nouveaux changements apportés par Baidu en matière de production et de consommation de contenu lors de la conférence. Elle a mentionné que la création et la consommation actuelles de contenu sont confrontées à de nombreux défis, tels que des outils complexes, des cycles de production longs et une faible efficacité de consommation. À cette fin, Baidu Wenku et Netdisk ont introduit la technologie de l'IA pour briser les contraintes des outils et les frontières modales et offrir une expérience de contenu plus libre et plus efficace.
La génération PPT intelligente de Baidu Wenku, la création de papier IA, la production de livres d'images IA, les capacités de recherche IA et la génération de romans et de bandes dessinées IA ont considérablement amélioré l'efficacité et la qualité de la production de contenu en même temps, en termes de consommation de contenu, a lancé Baidu Netdisk ; des outils simples tels que la numérisation, la dictée simple et le résumé vidéo IA facilitent grandement le traitement et la compréhension des informations par les utilisateurs.
Plus précisément, dans les scénarios de bureau, Baidu Wenku fournit des fonctions PPT intelligentes et de recherche et de reporting intelligentes, tandis que Baidu Netdisk a des fonctions telles que de simples notes d'écoute ; dans les scénarios d'apprentissage, les utilisateurs peuvent utiliser les livres de dessin intelligents et la recherche de photos de Baidu Wenku. Baidu Netdisk fournit des outils d'apprentissage auxiliaires tels que l'interprétation vidéo et le vocabulaire Panpan ; en termes de divertissement, Baidu Wenku propose des romans intelligents et des bandes dessinées intelligentes, et Baidu Netdisk a des fonctions telles que l'édition de photos AI. L'intégration de Baidu Wenku et Netdisk élargit les scénarios d'application des utilisateurs, réalise l'intelligence et la diversification du contenu et améliore encore l'expérience utilisateur.
Fonction de toile gratuite|Source de l'image : Baidu
De plus, Baidu Wenku et Netdisk ont lancé conjointement un nouveau système d'exploitation de contenu, Free Canvas. Ce système peut aider les utilisateurs à accomplir toutes les tâches, de la recherche d'informations à l'édition, en passant par la génération et le partage. Il prend non seulement en charge l'entrée et la sortie au format complet dans plusieurs modalités, mais permet également l'utilisation du contenu au niveau des éléments, enrichissant ainsi le degré de création et de partage. liberté.
Selon les mots de Robin Li, « la toile gratuite est un tableau blanc universel doté du grand modèle multimodal de Wenxin ». Ces innovations démontrent non seulement l’énorme potentiel de la technologie de l’IA dans le domaine du contenu, mais ouvrent également la voie à de nouvelles possibilités de production et de consommation de contenu à l’avenir.
Lors de la conférence, Shen Dou, vice-président exécutif du groupe Baidu et président du Baidu Intelligent Cloud Business Group, a partagé les derniers progrès de Baidu Intelligent Cloud dans les grands modèles et les applications natives d'IA. Shen Dou a déclaré que la technologie des grands modèles passait du changement technologique au changement industriel, redéfinissant la façon dont les gens interagissent avec le monde numérique et le monde physique et devenant un élément clé permettant aux entreprises d'améliorer leur compétitivité.
Shen Dou s'est concentré sur la plate-forme Qianfan, qui est une plate-forme de réglage fin de grands modèles et de développement d'applications. Elle fournit une chaîne d'outils riche et abaisse considérablement le seuil de développement d'applications natives d'IA. La plate-forme Qianfan répond non seulement aux exigences hautement personnalisables, à grande échelle, de haute disponibilité et de haute sécurité des applications d'entreprise, mais elle libère également des agents de flux de travail. Cette innovation exploite les capacités de compréhension et de généralisation des intentions des grands modèles pour transformer des flux de travail complexes en agents flexibles, améliorant ainsi considérablement l'efficacité de l'entreprise. Par exemple, China Pacific Insurance a utilisé la plateforme Qianfan pour générer un agent de vente « médaille d'or », ce qui a considérablement amélioré l'efficacité du service et l'expérience utilisateur en matière de renouvellement d'assurance automobile.
Baidu Smart Cloud Qianfan|Source de l'image : Baidu
De plus, la plate-forme Baige fournit des services informatiques efficaces liés aux grands modèles, de la création de clusters à la formation et à l'inférence de modèles, garantissant des performances stables et extrêmement rapides. La plateforme résout les problèmes clés du déploiement de clusters à grande échelle, prend en charge un fonctionnement efficace et répond aux besoins en puissance de calcul des différents clients.
Shen Dou a également présenté des cas d'application de la plate-forme Qianfan dans plusieurs secteurs, notamment la médecine de diagnostic général, améliorant la précision de la génération de dossiers médicaux grâce à des modèles de réglage fin et permettant aux médecins de gagner du temps. State Grid explore les applications de l'IA dans le secteur de l'énergie sur la base du grand Wenxin ; modèle et a obtenu des résultats remarquables. De plus, la mise à niveau de la plateforme XiLing 4.0 lui permet de générer des images humaines numériques 3D et de produire des vidéos professionnelles, réduisant ainsi considérablement le coût de production de vidéos courtes.
Baidu Intelligent Cloud a construit une nouvelle infrastructure d'IA via les plateformes Qianfan et Baige, promouvant l'application de technologies de grands modèles dans diverses industries pour améliorer le niveau d'intelligence et l'efficacité des entreprises.
En plus des applications, Baidu a également publié cette fois du matériel. Lors de la réunion, Li Ying, vice-président du groupe Baidu et PDG de Xiaodu Technology, a présenté « les premières lunettes IA natives équipées de grands modèles chinois » : les lunettes IA Xiaodu.
Lunettes Xiaodu AI|Source de l'image : Baidu
Li Ying a déclaré qu'en tant que dispositif de perspective à la première personne pour les humains, la capacité des lunettes IA à capturer la vision, le son, la localisation et d'autres informations apportera une extension sans précédent des sens des gens et deviendra également une entrée plus efficace et plus pratique vers l'homme-machine. interaction.
Basé sur le grand modèle Wenxin et le système d'exploitation natif DuerOS AI, Xiaodu AI peut réaliser des fonctions telles que la prise de vue en perspective à la première personne, la pose de questions en marchant, la reconnaissance des calories, l'encyclopédie de reconnaissance d'objets, la traduction audiovisuelle et le mémo intelligent.
En combinant l'appareil et le cloud avec de grands modèles, les lunettes Xiaodu AI peuvent être utilisées indépendamment ou associées à une application. Les lunettes ont des one-liners chinois intégrés et peuvent répondre aux questions des utilisateurs en temps réel.
En termes de matériel, les lunettes Xiaodu AI sont équipées d'un ensemble de quatre microphones pour reconnaître les sons, d'un haut-parleur ouvert et étanche, d'un objectif ultra grand angle de 16 mégapixels et d'un algorithme anti-tremblement AI ; chargé en 30 minutes, réalisant 56 heures de veille et plus de 5 heures d'utilisation continue. Écoutez ; l'ensemble de la machine ne pèse que 45 grammes, ce qui est inférieur à la moyenne de l'industrie de 49 grammes.
Les lunettes Xiaodu AI devraient être mises en vente au premier semestre de l'année prochaine. Le prix n'a pas encore été annoncé, mais le personnel du stand a déclaré que le prix pourrait être d'environ 2 000 yuans.
Robin Li a mentionné lors de la réunion que l'industrie de l'IA a subi des changements importants au cours des 24 derniers mois, le plus important étant que les grands modèles ont pratiquement éliminé le phénomène des hallucinations. Ce changement fait passer l’IA du « non-sens sérieux » d’origine à une IA utilisable et digne de confiance. Le grand modèle est essentiellement un modèle probabiliste et le contenu qu’il génère présente un certain degré d’incertitude. Cependant, en utilisant la technologie RAG, les grands modèles sont capables d'exploiter les informations récupérées pour guider la génération de texte ou de réponses, améliorant ainsi considérablement la qualité et la précision du contenu.
Afin de résoudre le problème des hallucinations dans la génération d'images, Baidu a développé une technologie au début de cette année - iRAG (Image based RAG), qui est une technologie de graphe Vincent améliorée par la récupération. Avant cela, les images générées par les systèmes de graphes vincentiens basés entièrement sur de grands modèles de langage étaient souvent de mauvaise qualité et même illogiques. La technologie iRAG de Baidu combine les ressources d'images de niveau milliard de Baidu Search et de puissantes capacités de modèle de base pour générer une variété d'images ultra-réalistes. L'effet global dépasse de loin le système vincentien natif et élimine les traces de génération machine.
À mesure que la convivialité des images générées par l’IA s’est considérablement améliorée, son espace d’application a également été considérablement élargi. Par exemple, dans un scénario de promotion d’une marque, la production d’une série d’affiches aurait pu coûter des centaines de milliers de yuans dans le passé, mais aujourd’hui, le coût de création est presque nul. En bref, la valeur commerciale d'iRAG se reflète dans les aspects d'absence d'illusion, d'ultra-réalisme, de faible coût et de disponibilité instantanée.
Robin Li à la conférence Source de l'image : Baidu
Lorsque les capacités du modèle de base arriveront à maturité, une période prospère pour les applications d’IA s’annonce. Alors, d’où viennent les applications d’IA et où iront-elles ? Il existe deux directions principales : l’une concerne les agents intelligents et l’autre les applications industrielles.
À l’avenir, peut-être lorsque la période prospère des applications de l’IA arrivera réellement, l’IA pourra véritablement réaliser sa mission d’« opportunités au niveau de la révolution industrielle » et apporter une expansion illimitée de la productivité à l’économie sociale.