O editor do Downcodes aprendeu que o Google está usando sua IA Gemini para melhorar a navegação do robô e os recursos de execução de tarefas. A pesquisa mais recente da equipe DeepMind mostra que a função de janela de contexto longa do Gemini 1.5 Pro melhora significativamente a interação de linguagem natural entre os usuários e o robô RT-2. Este avanço tecnológico permite aos robôs compreender o ambiente através da visualização de vídeos e realizar tarefas complexas, como orientar os utilizadores até às tomadas para carregar de acordo com as instruções, demonstrando o enorme potencial da inteligência artificial no campo da robótica.
O Google está treinando seus robôs com Gemini AI para melhorar a navegação e a conclusão de tarefas.
Em um novo artigo de pesquisa, a equipe da DeepMind Robotics explica em detalhes como usar a longa janela de contexto do Gemini1.5Pro para facilitar a interação dos usuários com o robô RT-2 usando instruções em linguagem natural. Ao fazer um tour de vídeo por uma área designada, os pesquisadores usaram o Gemini1.5Pro para deixar o robô “assistir” ao vídeo para entender o ambiente, permitindo que o robô executasse comandos com base no que observou, como guiar o usuário até um ponto de alimentação. tomada para carregar.
DeepMind disse que o robô equipado com Gemini executou com sucesso mais de 50 instruções do usuário em uma área operacional de mais de 9.000 pés quadrados, com uma taxa de sucesso de 90%.
Além disso, os pesquisadores também descobriram que o Gemini1.5Pro permite que o robô planeje como completar as instruções, não apenas a navegação. Por exemplo, quando um usuário com muitas latas de Coca-Cola em sua mesa pergunta ao robô se sua bebida favorita está disponível, Gemini informa ao robô que deve ir até a geladeira para verificar e depois relata os resultados ao usuário. A DeepMind disse que investigaria esses resultados mais detalhadamente.
Embora o vídeo de demonstração fornecido pelo Google seja impressionante, o robô leva de 10 a 30 segundos para processar essas instruções, de acordo com o artigo de pesquisa. Embora possa levar algum tempo até que compartilhemos nossas casas com robôs de mapeamento ambiental mais avançados, pelo menos esses robôs poderão nos ajudar a encontrar nossas chaves ou carteira perdidas.
Destaque:
Gemini AI treina robôs para melhorar os recursos de navegação e conclusão de tarefas
?Gemini1.5Pro permite que robôs executem instruções em linguagem natural
Gemini permite que robôs planejem e executem instruções além da navegação, segundo estudo
O resultado desta pesquisa anuncia o rápido desenvolvimento da tecnologia robótica no futuro. A aplicação da Gemini AI aumentará muito o nível de inteligência dos robôs e permitirá que eles sirvam melhor a vida humana. Embora ainda existam alguns gargalos técnicos, acredito que num futuro próximo robôs mais avançados entrarão em nossas vidas e nos trarão mais comodidade. O editor do Downcodes continuará atento aos últimos desenvolvimentos nesta área.