Google está utilizando Gemini AI para entrenar robots para mejorar la navegación y las capacidades de finalización de tareas.

Autor：Eve Cole Fecha de actualización：2024-12-08 10:48:01

El editor de Downcodes se enteró de que Google está utilizando su Gemini AI para mejorar la navegación del robot y las capacidades de ejecución de tareas. La última investigación del equipo de DeepMind muestra que la función de ventana de contexto larga de Gemini 1.5 Pro mejora significativamente la interacción del lenguaje natural entre los usuarios y el robot RT-2. Este avance tecnológico permite a los robots comprender el entorno viendo vídeos y completando tareas complejas, como guiar a los usuarios hasta las tomas de corriente para cargar según instrucciones, lo que demuestra el enorme potencial de la inteligencia artificial en el campo de la robótica.

Google está entrenando a sus robots con Gemini AI para mejorar la navegación y la realización de tareas.

En un nuevo artículo de investigación, el equipo de DeepMind Robotics explica en detalle cómo utilizar la ventana contextual larga de Gemini1.5Pro para facilitar a los usuarios la interacción con el robot RT-2 mediante instrucciones en lenguaje natural. Al realizar un recorrido en video por un área designada, los investigadores utilizaron Gemini1.5Pro para permitir que el robot "mirara" el video para comprender el entorno, lo que le permitió ejecutar comandos basados en lo que observó, como guiar al usuario a un poder. Tomacorriente para cargar.

DeepMind dijo que el robot equipado con Gemini ejecutó con éxito más de 50 instrucciones de usuario en un área operativa de más de 9000 pies cuadrados, con una tasa de éxito del 90%.

Además, los investigadores también descubrieron que Gemini1.5Pro permite al robot planificar cómo completar las instrucciones, no solo la navegación. Por ejemplo, cuando un usuario con muchas latas de Coca-Cola en su escritorio le pregunta al robot si su bebida favorita está disponible, Gemini le informa al robot que debe dirigirse al refrigerador para verificar y luego informa los resultados al usuario. DeepMind dijo que investigaría estos resultados más a fondo.

Si bien la demostración en video proporcionada por Google es impresionante, el robot tarda entre 10 y 30 segundos en procesar estas instrucciones, según el artículo de investigación. Si bien puede pasar algún tiempo antes de que compartamos nuestros hogares con robots de mapeo ambiental más avanzados, al menos estos robots podrían ayudarnos a encontrar nuestras llaves o billetera perdidas.

Destacar:

Gemini AI entrena robots para mejorar las capacidades de navegación y finalización de tareas

¿Gemini1.5Pro permite a los robots ejecutar instrucciones en lenguaje natural?

Gemini permite a los robots planificar y ejecutar instrucciones más allá de la navegación, según un estudio

El resultado de esta investigación presagia el rápido desarrollo de la tecnología robótica en el futuro. La aplicación de Gemini AI mejorará en gran medida el nivel de inteligencia de los robots y les permitirá servir mejor a la vida humana. Aunque todavía existen algunos cuellos de botella técnicos, creo que en un futuro próximo, entrarán en nuestras vidas robots más avanzados y nos brindarán más comodidad. El editor de Downcodes seguirá atento a las últimas novedades en este campo.