L'éditeur de Downcodes a appris que Google utilise son IA Gemini pour améliorer les capacités de navigation et d'exécution des tâches des robots. Les dernières recherches de l'équipe DeepMind montrent que la fonction de fenêtre contextuelle longue de Gemini 1.5 Pro améliore considérablement l'interaction en langage naturel entre les utilisateurs et le robot RT-2. Cette avancée technologique permet aux robots de comprendre l'environnement en regardant des vidéos et en accomplissant des tâches complexes telles que guider les utilisateurs vers des prises de courant pour les recharger selon les instructions, démontrant ainsi l'énorme potentiel de l'intelligence artificielle dans le domaine de la robotique.
Google entraîne ses robots avec Gemini AI pour améliorer la navigation et l'exécution des tâches.
Dans un nouveau document de recherche, l'équipe DeepMind Robotics explique en détail comment utiliser la longue fenêtre contextuelle de Gemini1.5Pro pour permettre aux utilisateurs d'interagir plus facilement avec le robot RT-2 à l'aide d'instructions en langage naturel. En effectuant une visite vidéo d'une zone désignée, les chercheurs ont utilisé Gemini1.5Pro pour permettre au robot de « regarder » la vidéo afin de comprendre l'environnement, permettant ainsi au robot d'exécuter des commandes basées sur ce qu'il a observé, comme guider l'utilisateur vers un pouvoir. prise pour recharger.
DeepMind a déclaré que le robot équipé de Gemini a exécuté avec succès plus de 50 instructions utilisateur dans une zone d'opération de plus de 9 000 pieds carrés, avec un taux de réussite de 90 %.
En outre, les chercheurs ont également découvert que Gemini1.5Pro permet au robot de planifier la manière de suivre les instructions, et pas seulement la navigation. Par exemple, lorsqu'un utilisateur avec beaucoup de canettes de Coca sur son bureau demande au robot si sa boisson préférée est disponible, Gemini fait savoir au robot qu'il doit se diriger vers le réfrigérateur pour vérifier, puis rapporte les résultats à l'utilisateur. DeepMind a déclaré qu'il étudierait ces résultats plus en détail.
Bien que la démonstration vidéo fournie par Google soit impressionnante, selon le document de recherche, il faut 10 à 30 secondes au robot pour traiter ces instructions. Même s’il faudra peut-être un certain temps avant que nous partagions nos maisons avec des robots de cartographie environnementale plus avancés, au moins ces robots pourraient-ils nous aider à retrouver nos clés ou notre portefeuille perdus.
Souligner:
Gemini AI forme des robots pour améliorer leurs capacités de navigation et d'exécution de tâches
? Gemini1.5Pro permet aux robots d'exécuter des instructions en langage naturel
Gemini permet aux robots de planifier et d'exécuter des instructions au-delà de la navigation, selon une étude
Ce résultat de recherche annonce le développement rapide de la technologie robotique à l’avenir. L’application de Gemini AI améliorera considérablement le niveau d’intelligence des robots et leur permettra de mieux servir la vie humaine. Même s’il existe encore quelques goulots d’étranglement techniques, je pense que dans un avenir proche, des robots plus avancés entreront dans nos vies et nous apporteront plus de confort. L'éditeur de Downcodes continuera à être attentif aux dernières évolutions dans ce domaine.