El desarrollo del aprendizaje profundo en el campo del control de robots está limitado por la falta de patrones de datos a gran escala. Un equipo de investigación de la Universidad de Tsinghua logró recientemente un gran avance mediante una estrategia eficiente de recopilación de datos, recopiló suficientes datos en solo una tarde, logrando una tasa de éxito del 90% para la estrategia del robot en nuevos entornos y nuevos objetos. El editor de Downcodes lo llevará a comprender los resultados de esta investigación y las reglas de escalamiento de datos detrás de ella.
El rápido desarrollo del aprendizaje profundo es inseparable de conjuntos de datos, modelos y cálculos a gran escala. En los campos del procesamiento del lenguaje natural y la visión por computadora, los investigadores han descubierto una relación de ley de potencia entre el rendimiento del modelo y el tamaño de los datos. Sin embargo, el campo de la robótica, especialmente el campo del control de robots, aún no ha establecido reglas de escala similares.
Un equipo de investigación de la Universidad de Tsinghua publicó recientemente un artículo que explora las reglas de escalamiento de datos en el aprendizaje por imitación de robots y propuso una estrategia eficiente de recopilación de datos que recopiló suficientes datos en solo una tarde, lo que hizo que la estrategia pudiera lograr aproximadamente una tasa de éxito del 90% en nuevos entornos y nuevos objetos.
Los investigadores dividieron la capacidad de generalización en dos dimensiones: generalización del entorno y generalización de objetos, y utilizaron una pinza portátil para recopilar datos de demostración humana en varios entornos y diferentes objetos, y modelaron estos datos utilizando una estrategia de difusión. Los investigadores primero se centraron en dos tareas: verter agua y colocar el ratón. Al analizar cómo cambia el rendimiento de la estrategia en nuevos entornos u nuevos objetos con el aumento en el número de entornos u objetos de entrenamiento, resumieron las reglas de escalado de datos.
Los resultados de la investigación muestran:
La capacidad de una política para generalizarse a nuevos objetos, nuevos entornos o ambos, tiene una relación de ley de potencia con el número de objetos de entrenamiento, entornos de entrenamiento o pares entorno-objeto de entrenamiento, respectivamente.
Incrementar la variedad de entornos y objetos es más efectivo que aumentar el número de demostraciones de cada entorno u objeto.
Al recopilar datos en tantos entornos como sea posible (por ejemplo, 32 entornos), con un objeto operativo único y 50 demostraciones en cada entorno, se puede entrenar una estrategia con una gran capacidad de generalización (tasa de éxito del 90%), de modo que pueda ejecutarse. sobre nuevos entornos y nuevos objetos.
Basándose en estas reglas de escalamiento de datos, los investigadores propusieron una estrategia eficiente de recopilación de datos. Recomiendan recopilar datos en tantos entornos diferentes como sea posible, utilizando solo un objeto único en cada entorno. Cuando el número total de pares entorno-objeto llega a 32, suele ser suficiente entrenar una política que pueda operar en nuevos entornos e interactuar con objetos nunca antes vistos. Para cada par entorno-objeto, se recomienda recopilar 50 demostraciones.
Para verificar la aplicabilidad general de la estrategia de recopilación de datos, los investigadores la aplicaron a dos nuevas tareas: doblar una toalla y desconectar un cargador. Los resultados muestran que esta estrategia también puede entrenar estrategias con una fuerte capacidad de generalización en estas dos nuevas tareas.
Este estudio muestra que con una inversión relativamente modesta de tiempo y recursos, es posible aprender una política de tarea única que se puede implementar en cualquier entorno y objeto con una implementación de disparo cero. Para apoyar aún más los esfuerzos de los investigadores en esta área, el equipo de Tsinghua publicó su código, datos y modelos con la esperanza de inspirar más investigaciones en el campo y, en última instancia, crear robots universales capaces de resolver problemas complejos de mundo abierto.
Dirección del artículo: https://arxiv.org/pdf/2410.18647
Esta investigación proporciona una experiencia valiosa para las reglas de escalado de datos en el campo del control de robots, y las estrategias eficientes de recopilación de datos también proporcionan nuevas direcciones para futuras investigaciones. El código fuente abierto, los datos y los modelos del equipo de la Universidad de Tsinghua promoverán aún más el desarrollo de este campo y, en última instancia, lograrán robots de uso general más potentes.