NVIDIA anuncia que su equipo de investigación ha desarrollado una nueva red neuronal llamada Hover (controlador multifunción humanoide), una red neuronal pequeña pero eficiente con solo 1,5 millones de parámetros dedicados al control del movimiento y la operación de los robots humanoides. Lo único de Hover es su capacidad para capturar procesos subconscientes en el movimiento humano, lo que permite a los robots realizar tareas complejas sin una programación engorrosa, lo cual es un avance significativo en el campo del control del robot. Su eficiente proceso de entrenamiento también es impresionante.
El equipo de investigación anunció un progreso emocionante en el desarrollo de una nueva red neuronal llamada Hover (controlador multifuncional humanoide). Esta red neuronal tiene 1,5 millones de parámetros y está específicamente diseñado para coordinar el movimiento y la operación de los robots humanoides.
"No todos los modelos básicos deben ser enormes. La red neuronal de parámetros de 1.5m que entrenamos está diseñada para controlar el cuerpo de un robot humanoide". El robot para realizar tareas complejas sin programación engorrosa. Mencionó que "los humanos necesitan mucho procesamiento subconsciente al caminar, mantener el equilibrio y manipular sus extremidades de manera flexible".
Durante el proceso de entrenamiento, Hover utilizó la plataforma de simulación ISAAC de NVIDIA, que puede acelerar la simulación física a una velocidad de 10,000 veces la de tiempo real.
Jim Fan reveló que el modelo ha sido entrenado en un entorno virtual durante un año y en realidad solo tomó unos 50 minutos de tiempo real, lo que se realiza en una sola GPU. Dijo que esta capacitación eficiente permite que las redes neuronales se transfieran sin problemas a aplicaciones del mundo real sin ajustar.
Hover tiene la capacidad de responder a una variedad de instrucciones de movimiento de alto nivel, incluido el control de la postura de la cabeza y la mano utilizando dispositivos XR como Apple's Vision Pro, u obteniendo posturas de cuerpo completo a través de la captura de movimiento y las cámaras RGB, e incluso las juntas de exoesqueletos . Fan enfatizó que Hover proporciona una interfaz unificada para robots que controlan diferentes dispositivos de entrada, facilitando así la recopilación de datos operativos remotos para capacitación.
Además, Hover está integrado con los modelos de acción en idioma de visión aguas arriba, lo que permite convertir las instrucciones de movimiento en señales de motor de bajo nivel a alta frecuencia. Este modelo es compatible con cualquier robot humanoide que pueda simularse en Isaac, lo que permite a los usuarios darle la vida al robot fácilmente.
A principios de este año, Nvidia también anunció un proyecto llamado GR00T, un modelo de uso general diseñado para robots humanoides. Los robots alimentados con GR00T (Generalist Robot00Technology) pueden comprender el lenguaje natural e imitar los movimientos humanos observando acciones, lo que les permite aprender rápidamente la coordinación, la flexibilidad y otras habilidades necesarias para interactuar de manera efectiva en el mundo real.
URL de papel: https://arxiv.org/pdf/2410.21229
Puntos clave:
- Nvidia lanza Hover, una red neuronal de 1,5 millones de parámetros diseñada para controlar el movimiento y la operación de los robots humanoides.
- ⏳ Hover entrenado en un entorno virtual durante un año, y el tiempo de entrenamiento real fue de solo 50 minutos, lo que mejoró la eficiencia de las aplicaciones de la vida real.
- Hover admite una variedad de instrucciones de movimiento de alto nivel, puede funcionar en colaboración con diferentes dispositivos de entrada y proporciona una interfaz unificada para el control del robot.
La aparición de flotantes marca un salto importante en la tecnología de control de los robots humanoides. Esperamos que esta tecnología traiga aplicaciones e innovaciones más emocionantes en el futuro.