A Nvidia anuncia que sua equipe de pesquisa desenvolveu uma nova rede neural chamada Hover (controlador multifuncional humanóide), uma rede neural pequena, mas eficiente, com apenas 1,5 milhão de parâmetros dedicados ao controle do movimento e operação de robôs humanóides. O que é único no Hover é sua capacidade de capturar processos subconscientes no movimento humano, permitindo que os robôs executem tarefas complexas sem programação pesada, o que é um avanço significativo no campo do controle de robôs. Seu processo de treinamento eficiente também é impressionante.
A equipe de pesquisa anunciou um progresso emocionante no desenvolvimento de uma nova rede neural chamada Hover (controlador multifuncional humanóide). Esta rede neural possui 1,5 milhão de parâmetros e foi projetada especificamente para coordenar o movimento e operação de robôs humanóides.
"Nem todos os modelos básicos precisam ser enormes. A rede neural de 1,5M de parâmetros que treinamos foi projetada para controlar o corpo de um robô humanóide". o robô para executar tarefas complexas sem programação complicada. Ele mencionou que "os humanos precisam de muito processamento subconsciente ao caminhar, manter o equilíbrio e manipular seus membros com flexibilidade".
Durante o processo de treinamento, o Hover usou a plataforma de simulação ISAAC da NVIDIA, que pode acelerar a simulação física a uma velocidade de 10.000 vezes a do tempo real.
Jim Fan revelou que o modelo foi treinado em um ambiente virtual por um ano e, na verdade, levou apenas 50 minutos em tempo real, o que é feito em uma única GPU. Ele disse que esse treinamento eficiente permite que as redes neurais sejam transferidas sem problemas para aplicativos do mundo real sem ajuste fino.
O Hover tem a capacidade de responder a uma variedade de instruções de movimento de alto nível, incluindo o controle da postura da cabeça e da mão usando dispositivos XR, como o Vision Pro da Apple, ou obtendo posturas de corpo inteiro através de câmeras RGB de captura de movimento e até juntas de exoeskeletas Ângulo ou obtenha o comando de velocidade raiz do joystick. Fan enfatizou que o Hover fornece uma interface unificada para robôs que controlam diferentes dispositivos de entrada, facilitando assim a coleta de dados operacionais remotos para treinamento.
Além disso, o Hover é integrado aos modelos de ação na linguagem da visão a montante, permitindo que as instruções de movimento sejam convertidas em sinais motores de baixo nível em alta frequência. Este modelo é compatível com qualquer robô humanóide que possa ser simulado em Isaac, permitindo que os usuários dêem a vida do robô facilmente.
No início deste ano, a Nvidia também anunciou um projeto chamado GR00T, um modelo de uso geral projetado para robôs humanóides. O GR00T (robôs generalistas robot00technology) pode entender a linguagem natural e imitar os movimentos humanos observando ações, permitindo que eles aprendam rapidamente coordenação, flexibilidade e outras habilidades necessárias para interagir efetivamente no mundo real.
URL do papel: https://arxiv.org/pdf/2410.21229
Pontos -chave:
- A NVIDIA lança Hover, uma rede neural de 1,5 milhão de parâmetros projetada para controlar o movimento e operação de robôs humanóides.
- ⏳ O mouse treinado em um ambiente virtual por um ano, e o tempo de treinamento real foi de apenas 50 minutos, o que melhorou a eficiência das aplicações da vida real.
- O Hover suporta uma variedade de instruções de movimento de alto nível, pode trabalhar em colaboração com diferentes dispositivos de entrada e fornece uma interface unificada para o controle de robôs.
O surgimento de pairar marca um grande salto na tecnologia de controle dos robôs humanóides. Estamos ansiosos por essa tecnologia, trazendo aplicativos e inovações mais emocionantes no futuro.