Quand les super applications apparaîtront-elles ? C’est peut-être l’anxiété la plus courante dans l’industrie de l’IA au cours de l’année écoulée.
Il est facile pour les gens de comparer l’intelligence artificielle à l’Internet sur PC ou à l’Internet mobile. Quelques années après l’émergence des deux, ils ont des super applications populaires. Cependant, l'intelligence artificielle est une vague technologique au niveau de la révolution industrielle. Le moment de l'émergence des super-applications de l'intelligence artificielle est plus comparable au temps d'émergence des super-applications après l'émergence des moteurs à vapeur et de l'électricité.
En 1776, la première machine à vapeur ayant une valeur pratique a été fabriquée et est devenue un moteur universel, conduisant la société humaine à « l'ère de la vapeur ». Ce n'est que dans les années 1800 que les machines à vapeur ont été largement utilisées dans les chemins de fer et la navigation. secteurs. La deuxième loi de la thermodynamique est apparue près de 100 ans plus tard ; la révolution électrique était également un processus évolutif. L'invention de l'énergie électrique a déclenché l'apogée de la deuxième révolution industrielle. Les centrales électriques, les lampes électriques, les chaînes de montage, etc. sont toutes apparues après l'électricité. . Un nouveau format d'entreprise qui a progressivement évolué au fil des décennies.
Par conséquent, des super applications à l’ère de l’intelligence artificielle apparaîtront certainement, mais le moment n’est pas encore venu. Au cours de l'année écoulée, l'industrie de l'IA s'est lancée dans ce que l'on appelle les « super applications », qui semblent un peu avides de succès rapide.
En tant que technologie de base, les grands modèles ne produisent pas directement de valeur pratique. Les différentes applications construites sur la base du grand modèle de base constituent le sens de l'existence du modèle. Pour les développeurs d'applications d'IA et les entrepreneurs, la meilleure stratégie n'est évidemment pas de s'en tenir à l'AGI ou aux « super applications », mais de faire de petits pas et de continuer à itérer pour créer des applications super utiles.
Récemment, lors de la conférence mondiale Baidu 2024, Baidu a annoncé les dernières données de son Wenxin Big Model : il y a six mois, les appels API quotidiens de Wenxin Big Model étaient de 200 millions, et ils dépassent désormais 1,5 milliard, soit une augmentation de 7,5 fois en seulement six mois. Il ne s’agit pas seulement d’un microcosme de l’explosion des applications de l’IA en Chine, mais cela montre également que les grands modèles ont réellement apporté une valeur pratique aux applications.
Pendant longtemps, il a été difficile de vendre de grands modèles nationaux à d'autres industries. Un initié de l'industrie a déclaré un jour à 36Kr : « Qu'il s'agisse de matériel intelligent ou d'agents d'IA, la demande dans l'industrie est très forte, mais peu de gens sont vraiment disposés. . Payer la facture parce que la génération des grands modèles est si pauvre et qu'il y a des illusions partout ». Limitée par le développement des capacités multimodales, l’expérience utilisateur initiale de l’intelligence artificielle générative est plus proche de celle d’un simple robot conversationnel. Au départ, les utilisateurs ont besoin d’adopteurs précoces, mais en raison de l’expérience médiocre, la rétention est faible.
Au cours de l’année écoulée, le plus grand changement dans les grands modèles est que « l’illusion » a été pratiquement éliminée et que les modèles sont devenus utilisables. Le grand modèle est essentiellement un modèle probabiliste.Dans la génération de texte, le prochain texte le plus probable est automatiquement généré, ce qui conduit l'IA à éprouver souvent des « hallucinations », ce qu'on appelle des « absurdités sérieuses ».
Si vous souhaitez développer des applications basées sur de grands modèles, vous devez éliminer les « illusions ». L'industrie de l'IA utilise généralement la technologie d'amélioration de la récupération (RAG, Retrieval-augmented Generation) pour éliminer fondamentalement l'illusion du texte généré par les grands modèles, ce qui confère aux grands modèles une valeur pratique. Pour être pratique, la technologie multimodale a également besoin de précision et de contrôlabilité pour élargir l’espace d’application de l’IA.
Baidu a publié un nouveau iRAG (image based RAG) lors de cette conférence mondiale : une technologie de récupération améliorée basée sur l'image. Au début de cette année, Baidu a décidé de résoudre le problème de la génération multimodale des « illusions », afin que les images de Vincent puissent également éliminer les illusions, atterrissant ainsi dans les domaines des œuvres cinématographiques et télévisuelles, des œuvres de bande dessinée, des bandes dessinées, des affiches. production et autres domaines.
Par exemple, l'industrie automobile s'appuie fortement sur le marketing et nécessite souvent un grand nombre de photographies de haute qualité. Afin de produire une image parfaite, elle nécessite beaucoup de ressources humaines, financières et matérielles. Grâce à la technologie iRAG, les constructeurs automobiles peuvent obtenir une photographie aux performances visuelles remarquables à un coût très faible et plus rapidement. Cela peut même être plus époustouflant visuellement.
À l'heure actuelle, la voie technique de l'intelligence artificielle générative est essentiellement divisée en deux écoles. L'une est l'école AGI, qui rêve d'atteindre l'intelligence artificielle générale en quelques années grâce à de grands modèles de base ; l'autre est l'école axée sur les applications, qui démarre ; à partir des besoins et des usages des applications Appliquer des modèles de feedback pour innover.
Sur la base d'une recherche et d'un développement continus de modèles sous-jacents à grande échelle, Baidu met davantage l'accent sur le développement axé sur les applications. Il est entendu que iRAG est utilisé parce que les applications doivent générer des images précises. Par exemple, le logo d'une entreprise ne peut pas être déformé ou déformé, ce qui nécessite des capacités multimodales précises. Après près d’un an de travail acharné, cette technologie est devenue pratique. Les progrès de l’application peuvent également avoir des répercussions sur la recherche et le développement du modèle lui-même.
Après deux ans, l’IA générative se trouve dans une période critique de changement de vitesse. 36Kr a précédemment révélé que deux startups nationales d'IA avaient suspendu la pré-formation des grands modèles. Au cours des deux derniers jours, le débat dans l'industrie sur la question de savoir si la loi de mise à l'échelle a atteint des « retours sur investissement décroissants » s'est intensifié.
En fait, à l’échelle mondiale, les changements ont déjà commencé. Les géants mondiaux de la technologie tels qu’OpenAI, Microsoft et Google ont successivement démissionné et déployé des agents intelligents. À la mi-septembre, Noam Brown, chercheur à OpenAI, a annoncé sur les réseaux sociaux qu'il recrutait des ingénieurs en apprentissage automatique pour la nouvelle équipe de recherche multi-agents. Le PDG et président de Microsoft, Nadella, a personnellement annoncé les nouveaux progrès de sa propre IA, a publié 10 nouveaux agents de business intelligence en une seule fois et a formé un groupe pour faire ses débuts. Presque au même moment, on a appris que Google allait également publier un agent intelligent. Bientôt, Google a divulgué "accidentellement" une "version d'aperçu interne" du dernier résultat de développement de l'IA Jarvis, qui est une intelligence artificielle de type agent capable de fonctionner. naviguer sur Internet et effectuer des recherches indépendantes.
Baidu est à la pointe de la tendance des agents intelligents en Chine. Lors de cet événement de la Baidu World Conference, l’agent intelligent est devenu le protagoniste. Baidu se concentre sur quatre types d'agents : le type d'entreprise, le type de rôle, le type d'outil et le type d'industrie.
Par exemple, l'agent semblable à un outil « Free Canvas » : basé sur l'accumulation à long terme des activités de bibliothèque de Baidu au cours des premières années et superposé à la technologie de l'intelligence artificielle générative, il a réalisé un grand bond en avant dans la création.
Dans les premières années, le besoin des gens qui utilisaient les bibliothèques était de trouver des documents prêts à l'emploi. Cependant, lorsque la technologie de l'intelligence artificielle générative est apparue, Baidu a découvert que le besoin le plus fondamental des gens n'est pas de trouver un document tout fait, mais de créer un contenu qui leur convient mieux.
Afin de répondre à ces besoins, Baidu a commencé à réfléchir à la manière de permettre aux gens de mieux créer sur la base de documents prêts à l'emploi, ou sans base matérielle. Suivant cette voie, la première bibliothèque Baidu a été reconstruite. Plus tard, Baidu a lancé un produit indépendant, Orange Pian, qui peut générer de longs articles en un seul clic. La naissance de Free Canvas est également basée sur cette logique, permettant aux gens de « communiquer leurs idées » plus facilement. pour exprimer vos pensées intérieures de manière plus pratique et plus précise.
Robin Li, fondateur de Baidu, estime que « les agents constituent la forme d'application d'IA la plus courante et sont sur le point d'inaugurer son point d'explosion. L'analogie avec la création d'agents est la construction d'un site Web à l'ère du PC, ou la création d'un média autonome ». compte à l’ère du mobile. La différence est que l’agent est plus humain, plus intelligent et ressemble davantage à vos ventes, à votre service client et à votre assistant. Les agents pourraient devenir le nouveau vecteur de contenu, d’informations et de services à l’ère de l’IA native.
Le PDG d'OpenAI, Sam Altman, a également exprimé la possibilité de se tourner vers les développeurs d'agents IA en répondant à une question sur Reddit le mois dernier. "Nous allons avoir des modèles de plus en plus performants, mais je pense que la prochaine grande avancée sera celle des agents IA." Jen-Hsun Huang de NVIDIA a également déclaré que NVIDIA disposera de 100 millions d'agents intelligents à l'avenir.
La caractéristique d'un agent intelligent est que le seuil est suffisamment bas et le plafond suffisamment haut, et il peut devenir une entreprise très puissante. Tout comme Google et Meta, fondés par des étudiants il y a de nombreuses années, ils sont devenus. les géants technologiques les plus puissants du monde. Dans une certaine mesure, ne pas créer d’agent intelligent aujourd’hui, c’est comme ne pas créer de site Web il y a vingt ans ou d’application il y a dix ans.
Rares sont les entreprises chinoises qui ont joué un rôle aussi important que Baidu dans les nœuds de talents, de ressources et de technologies du développement mondial de l’intelligence artificielle. Derrière cela, il est indissociable de la croyance et de la persévérance du fondateur dans l’IA. Dans l'industrie, Robin Li a un dicton classique : « Quand j'aurai 1 yuan, j'investirai dans la technologie ; quand j'aurai 100 millions, j'investirai dans la technologie ; quand j'aurai 10 milliards, j'investirai toujours dans la technologie. » .
Le travail de Baidu en matière d'IA remonte à la célèbre vente aux enchères d'il y a plus de dix ans. Un jour de décembre 2012, une vente aux enchères secrète a eu lieu au pied d'une montagne de ski au sud du lac Tahoe, dans le Nevada, aux États-Unis. Les actifs mis aux enchères étaient en réalité « trois personnes » : le professeur Geoffrey E. Hinton, le « parrain de l’IA » et deux de ses étudiants.
Les représentants de Baidu, Google, Microsoft et DeepMind ont fréquemment augmenté leurs offres, et l'offre a grimpé à 44 millions de dollars. À ce stade, seuls Baidu et Google étaient parmi les participants. Bien que Baidu ait participé à l’enchère sans limite supérieure, celle-ci n’a finalement pas abouti.
Cela a également fait comprendre à Robin Li qu'il devait développer lui-même l'apprentissage profond, la conduite autonome et d'autres technologies. Après cela, il a créé le Baidu America Research Institute et a commencé à recruter vigoureusement des talents mondiaux. Depuis lors, il a réussi à attirer des talents, notamment Ng Enda. , Dario Amodei, etc. Les meilleurs talents du monde entier se joignent.
Au cours des dix années suivantes, Baidu a entamé sa période d'auto-recherche complète sur la technologie de l'intelligence artificielle, depuis les puces, les frameworks, les modèles jusqu'aux couches d'application, les battant une par une. Baidu a successivement publié la plateforme ouverte de conduite autonome Apollo, le framework d'apprentissage profond PaddlePaddle en open source et a même publié la version 1.0 du grand modèle Wenxin début 2019.
Cependant, jusqu’à la naissance de ChatGPT, l’application de la technologie de l’IA n’avait pas atteint de point de bascule. Elle était considérée par l’industrie comme un gouffre sans fond, et son application pratique est encore loin.
La persévérance est toujours payante. Le renversement s'est produit en mars 2023. Basé sur la version 3.0 du grand modèle Wenxin, Baidu a été le premier au monde à lancer un produit évaluant ChatGPT, Wenxin Yiyan. À ce stade, dix années d’investissement silencieux ont finalement porté leurs fruits.
À partir du second semestre 2023, tout en veillant à ce que le modèle de base continue de dominer, Baidu s'est soudain rendu compte que la concurrence homogène des grands modèles avait provoqué un énorme gaspillage de ressources. Robin Li a publiquement appelé à plusieurs reprises à « faire tourner les applications, et non ». modèles." , et a demandé au sein de l'entreprise d'être la première entreprise à reconstruire tous les produits à l'aide de grands modèles. Lors de la Conférence mondiale de 2023, Baidu a montré au monde extérieur les résultats de la reconstruction d'applications importantes telles que la recherche, les cartes et les disques réseau. Lors de la Conférence mondiale de cette année, le thème de Baidu a été directement défini comme « Les applications arrivent », permettant au monde extérieur de le faire. voir le modèle à grande échelle dans L'énorme valeur créée dans les domaines des corps intelligents, des applications industrielles et d'autres domaines.
En regardant le passé, il n’est pas difficile de constater que Baidu a fait les bons choix à chaque étape importante du développement de l’intelligence artificielle mondiale au cours de la dernière décennie. À plus long terme, Robin Li espère que l'IA pourra véritablement être utilisée par chaque personne ordinaire, afin que chacun puisse avoir les capacités d'un programmeur.
Lors de la conférence mondiale de Baidu, Robin Li a également publié One More Thing - Miaida, un logiciel sans programmation de code, avec collaboration multi-agents et invocation multi-outils.
Miaida est très différent de tous les outils de génération de code auxiliaires précédents dans la mesure où il n'exige pas que les utilisateurs comprennent le code. En revanche, les outils d’IA précédents, en tant qu’outils de productivité, visaient davantage à renforcer les capacités des élites au sommet de la pyramide. Par exemple, dans la Silicon Valley, la génération de code auxiliaire est très importante car il y a une pénurie d’ingénieurs aux États-Unis. et les salaires horaires des ingénieurs sont également très chers. Outils auxiliaires Cela peut améliorer l'efficacité et rendre plus puissants ceux qui se trouvent au sommet de la pyramide.
Mais l’IA devrait être quelque chose dont tout le monde peut bénéficier, plutôt que d’être un brevet utilisé par quelques-uns.
À mesure que les capacités des modèles et des agents de base s'améliorent progressivement, Baidu intègre ces capacités techniques pour permettre à de vraies personnes ordinaires, qui ne peuvent pas comprendre une ligne de code, de disposer des capacités des programmeurs.
Imaginez, lorsque des centaines de millions ou plus d'un milliard de personnes auront cette capacité, cela correspondra à un immense espace de marché, notamment à une explosion de créativité, inégalée par des technologies telles que les outils auxiliaires de génération de code. Baidu espère que chaque personne ordinaire pourra avoir les capacités de ceux qui se trouvent au sommet de la pyramide, et sa signification est naturellement plus profonde.
Robin Li a déclaré lors de la conférence : « Baidu ne va pas lancer une « super application », mais continuera à aider davantage de personnes et davantage d'entreprises à créer des millions d'applications « super utiles ».
Imaginez simplement qu'à l'ère de l'IA, de plus en plus de personnes puissent apprendre à créer de nouveaux produits et services et utiliser la programmation en langage naturel, une action créative et à bas seuil, pour réaliser des idées folles et créer d'innombrables produits précieux. c’est la véritable inclusivité de la technologie.