L'équipe de recherche de Microsoft a publié une nouvelle technologie d'intelligence artificielle - Large Action Model (LAM), qui peut faire fonctionner les programmes Windows de manière autonome, marquant une nouvelle étape de l'IA passant du simple dialogue et des suggestions à l'exécution réelle des tâches. Contrairement aux modèles linguistiques traditionnels, LAM peut comprendre une variété d'entrées telles que le texte, la voix et les images, et les convertir en plans d'action détaillés. Il peut même ajuster des stratégies basées sur des situations en temps réel pour résoudre certains problèmes que d'autres systèmes d'IA ne peuvent pas résoudre. avec. Cette technologie révolutionnaire offre des possibilités plus larges à l’IA dans des applications pratiques et ouvre la voie au développement de futurs assistants d’intelligence artificielle.
L'équipe de recherche de Microsoft a récemment lancé une technologie d'intelligence artificielle appelée « Large Action Model » (LAM), marquant une nouvelle étape dans le développement de l'IA. Contrairement aux modèles de langage traditionnels tels que GPT-4o, LAM peut faire fonctionner les programmes Windows de manière autonome, ce qui signifie que l'IA peut non seulement parler ou fournir des suggestions, mais également effectuer des tâches.
La force de LAM réside dans sa capacité à comprendre diverses entrées des utilisateurs, notamment le texte, la parole et les images, puis à traduire ces demandes en plans détaillés, étape par étape. LAM élabore non seulement des plans mais adapte également ses stratégies d'action en fonction des conditions en temps réel. Le processus de construction d'un LAM est principalement divisé en quatre étapes : d'abord, le modèle apprend à décomposer la tâche en étapes logiques ; puis, grâce à des systèmes d'IA plus avancés (tels que GPT-4o), il apprend à traduire ces plans en étapes logiques ; des actions spécifiques ; ensuite, le LAM explorera de manière indépendante de nouvelles solutions et même résoudra des problèmes que d'autres systèmes d'IA ne peuvent pas résoudre, enfin, affinera la formation grâce à un mécanisme de récompense ;
Dans le cadre de l'expérience, l'équipe de recherche a construit un modèle LAM basé sur Mistral-7B et l'a testé dans l'environnement de test Word. Les résultats ont montré que le modèle a accompli la tâche avec succès dans 71 % des cas, contre 63 % pour le GPT-4o sans informations visuelles.
De plus, LAM fonctionne également bien en termes de vitesse d'exécution des tâches, chaque tâche ne prenant que 30 secondes, tandis que GPT-4o prend 86 secondes. Bien que le taux de réussite du GPT-4o soit porté à 75,5 % lors du traitement des informations visuelles, dans l’ensemble, le LAM présente des avantages significatifs en termes de rapidité et d’effet.
Pour créer les données de formation, l'équipe de recherche a initialement collecté 29 000 exemples de paires de tâches et de plans à partir de documents Microsoft, d'articles wikiHow et de recherches Bing. Ils ont ensuite utilisé GPT-4o pour transformer des tâches simples en tâches complexes, élargissant ainsi l'ensemble de données à 76 000 paires, soit une augmentation de 150 %. Au final, environ 2 000 séquences d’actions réussies ont été incluses dans l’ensemble final de formation.
Bien que le LAM ait démontré son potentiel dans le développement de l’IA, l’équipe de recherche est encore confrontée à certains défis, tels que le problème des erreurs possibles dans les actions de l’IA, les problèmes liés à la réglementation et les limitations techniques en matière de mise à l’échelle et d’adaptation dans différentes applications. Cependant, les chercheurs estiment que la LAM représente un changement important dans le développement de l’IA, indiquant que les assistants d’intelligence artificielle seront en mesure d’aider plus activement les humains dans l’accomplissement de tâches pratiques.
Points forts:
LAM peut exécuter des programmes Windows de manière autonome, dépassant ainsi les limites de l’IA traditionnelle qui ne peut que parler.
⏱ Dans le test Word, la probabilité de LAM de réussir la tâche a atteint 71 %, ce qui est supérieur aux 63 % de GPT-4o, et la vitesse d'exécution est plus rapide.
L'équipe de recherche a utilisé une stratégie d'expansion des données pour augmenter le nombre de paires de plans de mission à 76 000 paires, améliorant ainsi l'effet de formation du modèle.
L’émergence du LAM annonce la transformation de l’intelligence artificielle du statut de fournisseur d’informations à celui d’exécuteur réel d’actions, apportant des changements révolutionnaires à l’avenir de l’interaction homme-machine et du bureau automatisé. Même s’il reste encore confronté à des défis, le LAM présente un grand potentiel et il vaut la peine d’espérer sa large application et son développement ultérieur dans divers domaines.