Nous nous trouvons à un tournant passionnant dans le développement de l’intelligence artificielle.
Imaginez à quoi ressemblera l’intelligence artificielle dans le futur ? Avec une simple commande, ils peuvent comprendre et effectuer des tâches complexes ; ils peuvent également capturer visuellement les expressions et les mouvements de l'utilisateur pour déterminer son état émotionnel. Il ne s’agit plus d’une scène d’un film de science-fiction hollywoodien, mais de l’ère des agents IA qui entre progressivement dans la réalité.
Dès novembre 2023, le fondateur de Microsoft, Bill Gates, écrivait que les agents changeraient non seulement la façon dont chacun interagit avec les ordinateurs, mais bouleverseraient également l'industrie du logiciel et provoqueraient la plus grande révolution informatique depuis que nous avons commencé à taper des commandes pour cliquer sur des icônes. Le PDG d'OpenAI, Sam Altman, a également déclaré à plusieurs reprises que l'ère de la création d'énormes modèles d'IA est révolue et que les agents d'IA constituent le véritable défi de l'avenir. En avril de cette année, Andrew Ng, spécialiste bien connu de l'IA et professeur à l'Université de Stanford, a souligné que le flux de travail des agents entraînerait d'énormes progrès dans l'IA cette année, et pourrait même dépasser la prochaine génération de modèles de base.
À l'instar des véhicules électriques intelligents, tout comme ils trouvent un certain équilibre entre les nouvelles applications des technologies énergétiques et l'anxiété liée à l'autonomie, les agents d'IA permettent à l'intelligence artificielle d'entrer dans le « mode d'extension d'autonomie ». Entre la technologie de l'IA et les applications industrielles, essayez d'atteindre un nouvel équilibre autant que possible. .
Comme son nom l’indique, un agent IA est une entité intelligente capable de percevoir l’environnement, de prendre des décisions et d’effectuer des actions de manière autonome. Il peut s’agir d’un programme, d’un système ou d’un robot.
L'année dernière, une équipe de recherche conjointe de l'Université de Stanford et de Google a publié un document de recherche intitulé « Agents génératifs : simulation interactive du comportement humain ». Dans l'article, 25 personnes virtuelles vivant dans la ville virtuelle de Smallville ont montré divers comportements humains après avoir accédé à ChatGPT, déclenchant ainsi le concept d'agents IA.
Depuis lors, de nombreuses équipes de recherche ont intégré les grands modèles qu'elles ont développés dans des jeux tels que "Minecraft". Par exemple, le scientifique en chef de Nvidia, Jim Fan, a créé un agent d'IA nommé Voyager. Bientôt, Voyager a montré une très superbe capacité d'apprentissage. Il peut apprendre les techniques de creusement, de construction de maisons, de collecte, de chasse et d'autres jeux sans aucun enseignant. Il peut également ajuster ses stratégies de collecte de ressources en fonction des différentes conditions du terrain.
OpenAI a déjà répertorié une feuille de route à cinq niveaux pour parvenir à une intelligence artificielle générale : L1 est un chatbot ; L2 est un raisonneur, qui est une IA qui peut résoudre des problèmes comme un humain ; L3 est un agent, qui est une IA qui peut non seulement penser ; mais aussi passer à l'action Système ; L4 est l'innovateur ; L5 est l'organisateur. Parmi eux, les agents d’IA occupent une position critique pour relier le passé et le futur.
En tant que concept important dans le domaine de l’intelligence artificielle, le monde universitaire et l’industrie ont proposé diverses définitions des agents d’IA. En gros, un agent d'IA doit avoir des capacités de réflexion et de planification semblables à celles d'un humain, ainsi que certaines compétences lui permettant d'interagir avec l'environnement et les humains pour accomplir des tâches spécifiques.
Peut-être pouvons-nous mieux comprendre en comparant les agents d'IA aux humains numériques dans un environnement informatique - le cerveau d'un humain numérique est un grand modèle de langage ou un algorithme d'intelligence artificielle qui peut traiter des informations et prendre des décisions dans des interactions en temps réel ; est équivalent aux organes sensoriels tels que les yeux et les oreilles, qui sont utilisés pour obtenir des informations sur différents états environnementaux tels que le texte, le son et les images ; le module de mémoire et de récupération est comme les neurones, utilisé pour stocker l'expérience et aider à la prise de décision ; le module d'exécution d'action est constitué des membres, utilisés pour exécuter les décisions prises par le cerveau.
Depuis longtemps, les humains recherchent une intelligence artificielle plus « humaine », voire « surhumaine », et les agents intelligents sont considérés comme un moyen efficace pour y parvenir. Ces dernières années, avec l’amélioration du Big Data et de la puissance de calcul, divers grands modèles d’apprentissage profond se sont développés rapidement. Cela apporte un soutien considérable au développement d’une nouvelle génération d’agents d’IA et a permis de réaliser des progrès significatifs dans la pratique.
Par exemple, le système d'intelligence artificielle DeepMind de Google a présenté l'agent d'IA « RoboCat » pour les robots ; Amazon Cloud Technology a lancé l'agent Amazon Bedrock, qui peut décomposer automatiquement les tâches de développement d'applications d'IA d'entreprise, etc. Les agents de Bedrock sont capables de comprendre les objectifs, de formuler des plans et d'agir. Les nouvelles capacités de rétention de mémoire permettent aux agents de se souvenir et d'apprendre des interactions au fil du temps, permettant ainsi des tâches plus complexes, plus longues et plus adaptatives.
Le cœur de ces agents d’IA est constitué d’algorithmes d’intelligence artificielle, notamment l’apprentissage automatique, l’apprentissage profond, l’apprentissage par renforcement, les réseaux de neurones artificiels et d’autres technologies. Grâce à ces algorithmes, les agents d'IA peuvent apprendre de grandes quantités de données et améliorer leurs propres performances, optimiser constamment leurs décisions et leurs comportements, et peuvent également s'ajuster de manière flexible en fonction des changements de l'environnement pour s'adapter à différents scénarios et tâches.
Actuellement, les agents IA ont été utilisés dans de nombreux scénarios, tels que le service client, la programmation, la création de contenu, l'acquisition de connaissances, la finance, les assistants mobiles, la fabrication industrielle, etc. L'émergence des agents d'IA marque l'avancement de l'intelligence artificielle depuis la simple correspondance de règles et la simulation informatique vers un niveau supérieur d'intelligence autonome. Elle favorise l'amélioration de l'efficacité de la production et la transformation des méthodes de production, et ouvre un nouveau domaine à comprendre. et transformer le monde.
Le paradoxe de Moravec souligne que pour les systèmes d'intelligence artificielle, le raisonnement de haut niveau nécessite très peu de puissance de calcul, tandis que l'acquisition des capacités perceptuelles et motrices auxquelles les humains sont habitués nécessite d'énormes ressources informatiques. Essentiellement, les tâches logiques complexes sont plus faciles pour l’IA que les tâches sensorielles de base que les humains peuvent effectuer instinctivement. Ce paradoxe met en évidence l’écart entre l’IA actuelle et les capacités cognitives humaines.
Le célèbre informaticien Andrew Ng a dit un jour : « Les humains sont des créatures multimodales, et notre IA devrait également être multimodale. » Cette phrase exprime la valeur fondamentale de l'IA multimodale : rapprocher les machines de la connaissance humaine. une interaction homme-machine plus naturelle et plus efficace.
Chacun de nous est comme un terminal intelligent. Nous avons généralement besoin d'aller à l'école pour recevoir des connaissances (formation), mais le but et le résultat de la formation et de l'apprentissage sont que nous avons la capacité de travailler et de vivre de manière indépendante sans toujours dépendre d'instructions et d'instructions extérieures. contrôle. Les gens comprennent le monde qui les entoure à travers de multiples modes sensoriels tels que la vision, le langage, le son, le toucher, le goût et l'odorat, puis évaluent la situation, analysent, raisonnent, prennent des décisions et agissent.
Le cœur des agents IA réside dans « l’intelligence », et l’autonomie est l’une de ses principales caractéristiques. Ils peuvent effectuer des tâches de manière indépendante et selon des règles et objectifs prédéfinis sans intervention humaine.
Imaginez une voiture sans conducteur équipée de caméras, de radars et de capteurs avancés. Ces « yeux » de haute technologie lui permettent d'« observer » le monde qui l'entoure, capturant en temps réel les conditions de la route, les mouvements des autres véhicules et les mouvements des autres véhicules. mouvements des piétons. Informations telles que l’emplacement et les changements de feux de circulation. Ces informations sont transmises au cerveau de la voiture autonome, un système de prise de décision intelligent et complexe capable d'analyser rapidement les données et de formuler les stratégies de conduite correspondantes.
Par exemple, face à des environnements de circulation complexes, les voitures autonomes peuvent calculer l’itinéraire optimal et même prendre des décisions complexes telles que changer de voie si nécessaire. Une fois les décisions prises, les systèmes d'exécution traduisent ces décisions intelligentes en actions de conduite spécifiques, telles que la direction, l'accélération et le freinage.
Dans les modèles d’agents à grande échelle construits sur la base de données volumineuses et d’algorithmes complexes, l’interactivité est plus évidente. Être capable de « comprendre » et de réagir au langage naturel complexe et changeant des humains est la magie des agents d'IA : ils sont non seulement capables de « comprendre » le langage humain, mais sont également capables d'interagir de manière fluide et perspicace.
Les agents IA peuvent non seulement s’adapter rapidement à diverses tâches et environnements, mais également optimiser continuellement leurs performances grâce à l’apprentissage continu. Depuis la percée de la technologie d'apprentissage profond, divers modèles d'agents sont devenus plus précis et efficaces grâce à l'accumulation continue de données et à l'auto-amélioration.
De plus, les agents IA sont également très adaptables à l'environnement . Les robots automatisés travaillant dans les entrepôts peuvent surveiller et éviter les obstacles en temps réel. Lorsqu'il détecte un changement dans l'emplacement d'une étagère, il met immédiatement à jour son plan de parcours pour accomplir efficacement la tâche de prélèvement et de manutention des marchandises.
L’adaptabilité des agents IA se reflète également dans leur capacité à s’ajuster en fonction des retours des utilisateurs. En identifiant les besoins et les préférences des utilisateurs, les agents IA peuvent optimiser en permanence leur comportement et leurs résultats et fournir des services plus personnalisés, tels que des recommandations musicales pour les logiciels de musique, des traitements personnalisés pour des soins médicaux intelligents, et bien plus encore.
L’émergence de grands modèles multimodaux et de modèles mondiaux a considérablement amélioré les capacités de perception, d’interaction et de raisonnement des agents. Les grands modèles multimodaux peuvent gérer plusieurs modes de perception (tels que la vision, le langage), permettant aux agents de comprendre et de réagir de manière plus globale à des environnements complexes. Le modèle mondial fournit à l'agent des capacités de prévision et de planification plus solides en simulant et en comprenant les lois de l'environnement physique.
Après des années de fusion de capteurs et d’évolution de l’IA, les robots sont à ce stade essentiellement équipés de capteurs multimodaux. À mesure que les appareils de pointe tels que les robots commencent à disposer de plus de puissance de calcul, ces appareils deviennent de plus en plus intelligents, capables de détecter leur environnement, de comprendre et de communiquer en langage naturel, d'acquérir le contact grâce à des interfaces de détection numérique et d'utiliser des accéléromètres, des gyroscopes combinés à un magnétomètre, etc., il peut détecter la force spécifique du robot, sa vitesse angulaire et même le champ magnétique autour du robot.
Avant l'émergence de Transformer et des grands modèles de langage (LLM), pour implémenter la multimodalité dans l'IA, il était généralement nécessaire d'utiliser plusieurs modèles distincts responsables de différents types de données (texte, images, audio) et de traiter différentes modalités à travers un processus complexe. processus d’intégration.
Après l'émergence de Transformer et LLM, la multimodalité est devenue plus intégrée, permettant à un seul modèle de traiter et de comprendre plusieurs types de données en même temps, ce qui a donné lieu à un système d'IA avec une perception globale plus puissante de l'environnement. amélioration de la multimodalité. Efficience et efficacité des applications modales d’IA.
Bien que les LLM tels que GPT-3 soient principalement basés sur du texte, l'industrie a fait des progrès rapides vers la multimodalité. Du CLIP et DALL·E d'OpenAI aux sora et GPT-4o actuels, ce sont tous des exemples modèles évoluant vers une interaction homme-machine multimodale et plus naturelle.
Par exemple, CLIP comprend les images associées au langage naturel, reliant ainsi les informations visuelles et textuelles ; DALL·E vise à générer des images basées sur des descriptions textuelles. Nous voyons le modèle Google Gemini connaître une évolution similaire.
En 2024, l’évolution multimodale va s’accélérer. En février de cette année, OpenAI a publié Sora, qui peut générer des vidéos réalistes ou imaginatives basées sur des descriptions textuelles. Si vous y réfléchissez bien, cela pourrait constituer une voie prometteuse vers la construction d’un simulateur mondial à usage général ou devenir un outil important pour la formation des robots.
Trois mois plus tard, GPT-4o a considérablement amélioré les performances de l'interaction homme-machine et était capable de raisonner entre l'audio, la vision et le texte en temps réel. Utilisation complète des informations textuelles, visuelles et audio pour former un nouveau modèle de bout en bout, éliminant les deux conversions modales de la modalité d'entrée en texte et du texte en modalité de sortie, améliorant ainsi considérablement les performances.
Les grands modèles multimodaux devraient modifier les capacités d’analyse, de raisonnement et d’apprentissage de l’intelligence artificielle, faisant passer l’intelligence artificielle de spécialisée à polyvalente. La généralisation contribuera à élargir l'échelle et à produire des effets économiques d'échelle. Le prix peut également être considérablement réduit à mesure que l'échelle s'étend, puis être adopté par davantage de domaines, formant ainsi un cercle vertueux.
En simulant et en développant les capacités cognitives humaines, les agents d’IA devraient être largement utilisés dans de nombreux domaines tels que les soins médicaux, les transports, la finance et la défense nationale. Certains chercheurs estiment que d’ici 2030, l’intelligence artificielle stimulera la croissance du PIB mondial d’environ 12 %.
Cependant, tout en constatant le développement rapide des agents d’IA, nous devons également considérer les risques techniques, les problèmes d’éthique et de confidentialité auxquels ils sont confrontés. Un groupe de robots de négociation de titres a brièvement effacé une valeur de 1 000 milliards de dollars sur des bourses telles que le Nasdaq grâce à des contrats d'achat et de vente à haute fréquence. Un chatbot utilisé par l'Organisation mondiale de la santé a fourni des informations obsolètes sur l'évaluation des médicaments. que les documents historiques qu'il a fournis au tribunal ont tous été fabriqués à partir de rien par ChatGPT... Ces cas réels montrent que les dangers cachés présentés par les agents de l'IA ne doivent pas être sous-estimés.
Étant donné que les agents d’IA peuvent prendre des décisions de manière indépendante et exercer une influence sur le monde physique grâce à leur interaction avec l’environnement, une fois hors de contrôle, ils constitueront une grande menace pour la société humaine. Zitrain, professeur à l'Université de Harvard, estime que ce type d'agent IA, capable non seulement de parler aux gens mais aussi d'agir dans le monde réel, constitue « une étape au-delà de la barrière hémato-encéphalique entre le numérique et l'analogique, les bits et les atomes » et devrait attirer l'attention. .
Tout d'abord, les agents d'IA collecteront une grande quantité de données dans le processus de fourniture de services, et les utilisateurs doivent garantir la sécurité des données et éviter les fuites de confidentialité.
Deuxièmement, plus l’autonomie d’un agent d’IA est forte, plus il est susceptible de prendre des décisions imprévisibles ou inappropriées dans des situations complexes ou imprévues. La logique de fonctionnement des agents d’IA peut provoquer des écarts nuisibles dans le processus d’atteinte d’objectifs spécifiques, et les risques de sécurité qu’elle entraîne ne peuvent être ignorés. En termes plus courants, dans certains cas, l'agent d'IA peut uniquement capturer le sens littéral de la cible, sans comprendre la signification essentielle de la cible, et ainsi adopter des comportements erronés.
Troisièmement, les problèmes de « boîte noire » et d'« illusion » inhérents au grand modèle de langage de l'IA augmenteront également la fréquence des anomalies opérationnelles. Il existe également des agents IA « rusés » qui peuvent contourner avec succès les mesures de sécurité existantes. Les experts compétents soulignent que si un agent IA est suffisamment avancé, il sera capable de reconnaître qu'il est testé. Certains agents d’IA se sont révélés capables d’identifier les tests de sécurité et de suspendre les comportements inappropriés, ce qui entraînerait la défaillance des systèmes de test identifiant les algorithmes dangereux pour les humains.
De plus, comme il n’existe actuellement aucun mécanisme de sortie efficace pour les agents IA, il est possible que certains agents IA ne puissent pas être arrêtés après leur création. Ces agents d’IA, qui ne peuvent pas être désactivés, pourraient finir par fonctionner dans un environnement complètement différent de celui lors de leur lancement initial, s’écartant complètement de leur objectif initial. Les agents d’IA peuvent également interagir de manière imprévue, provoquant des accidents.
À cette fin, les humains doivent commencer le plus tôt possible par le développement et la production d'agents d'IA, ainsi qu'une supervision continue après le déploiement des applications, et formuler en temps opportun les lois et réglementations pertinentes pour normaliser le comportement des agents d'IA, afin de mieux prévenir les risques apportés par les agents d'IA, prévenir l'apparition de phénomènes incontrôlables.
À l'avenir, les agents d'IA devraient devenir le principal vecteur de la prochaine génération d'intelligence artificielle. Cela changera non seulement la façon dont nous interagissons avec les machines, mais pourrait également remodeler le modèle de fonctionnement de l'ensemble de la société. nouvelle vitesse dans le processus de promotion de la transformation de l’intelligence artificielle.