Dans le domaine de l'intelligence artificielle, une percée révolutionnaire remodèle la façon dont nous interagissons avec les ordinateurs. Kunlun Wanwei s'est associé aux meilleures institutions telles que le Zhiyuan Artificial Intelligence Research Institute, Singapore Nanyang Technological University et Peking University pour lancer conjointement un cadre de contrôle informatique à usage général appelé Cradle. Ce cadre d'IA innovant perce les limites des agents traditionnels, leur permettant de manipuler directement les claviers et la souris comme les humains, interagissent parfaitement avec divers logiciels ouverts ou fermés sans compter sur aucune API interne. Cradle est unique en ce qu'il est le premier cadre d'IA qui peut contrôler simultanément les jeux commerciaux et exploiter diverses applications logicielles. Nouvelle vitalité.
Cradle est incroyable dans les applications pratiques, montrant ses capacités supérieures dans de nombreux types de jeux différents. De terminer une mission principale de 40 minutes à Red Dead 2 à des fermes et des achats de Stardew Valley avec des milliers de personnes dans les toits complexes avec des clients de Pawnshop Life 2, Cradle a montré une adaptabilité incroyable. . Non seulement cela, il peut également être compétent dans les logiciels de bureau quotidiens tels que Chrome, Outlook, Feishu, etc., et peut même effectuer une modification photo professionnelle et un montage vidéo, devenant vraiment un assistant d'IA complet.
Le succès de Cradle est grâce à son architecture de système exquise, qui se compose de six composantes principales: collecte d'informations, auto-réflexion, inférence des tâches, gestion des compétences, planification d'action et modules de mémoire. En encapsulant et en abstraction de l'entrée et de la sortie d'origine, Cradle permet une interaction naturelle avec l'ordinateur. Il utilise l'image vidéo affichée à l'écran comme source d'entrée principale, extrait du texte et des informations visuelles pour la prise de décision et publie des signaux qui contrôlent le clavier et la souris. Il convient de mentionner particulièrement que le module de prise de décision et de raisonnement de Cradle peut interagir spontanément avec le logiciel et effectuer des tâches, et fonctionner par la réflexion sur le passé, résumant le présent et planifiant l'avenir, montrant un modèle de pensée de type humain.
Dans les tests réels, les performances de Cradle prouve pleinement sa polyvalence. Il peut effectuer des tâches complexes dans des jeux avec des styles et des méthodes d'exploitation complètement différents, et peut également effectuer diverses tâches avec facilité dans les logiciels communs, tels que le téléchargement des articles académiques, l'envoi de courriels, le traitement d'image, l'édition vidéo, etc. Ce qui est encore plus remarquable, c'est que Cradle bat même la méthode de base en utilisant des balises de vérité dans le test OSWorld de référence difficile, démontrant sa forte capacité d'apprentissage et sa forte adaptabilité.
Le lancement de Cradle marque une étape importante dans le développement des agents du CCG. Il favorise non seulement le développement d'interfaces d'entrée et de sortie unifiées, jette une base solide pour l'interaction future et l'auto-amélioration des agents dans différents environnements, mais prend également une étape critique pour atteindre l'objectif de l'intelligence artificielle générale (AGI). La naissance de ce cadre innovant révolutionnera probablement la façon dont nous interagissons avec les ordinateurs et ouvrira une nouvelle ère de collaboration humaine-ordinateur.
Page d'accueil du projet: https://baai-agents.github.io/cradle
Lien de code: https://github.com/baai-agents/cradle