La investigación sobre la escala de datos en el campo de la manipulación de robots siempre ha sido un gran desafío en el campo del aprendizaje de los robots. La investigación existente se centra en los campos del procesamiento del lenguaje natural y la visión por computadora, mientras que la investigación en el campo de la manipulación de los robots es relativamente escasa. Este artículo presenta los últimos resultados de investigación del equipo de investigación de la Universidad de Tsinghua.
El rápido desarrollo del aprendizaje profundo es inseparable de conjuntos de datos a gran escala, modelos y volumen computacional. En los campos del procesamiento del lenguaje natural y la visión por computadora, los investigadores han descubierto una relación de ley de poder entre el rendimiento del modelo y la escala de datos. Sin embargo, el campo de los robots, especialmente la manipulación de robots, aún no ha establecido leyes de escala similares.
Un equipo de investigación de la Universidad de Tsinghua publicó recientemente un artículo que explora la escala de datos en el aprendizaje de la imitación de robots y propuso una estrategia de recopilación de datos eficiente que recopiló suficientes datos en una sola tarde para hacer la capacidad de estrategia para lograr una tasa de éxito de aproximadamente 90% en nuevo entornos y nuevos objetos.
Los investigadores dividieron las capacidades de generalización en dos dimensiones: generalización ambiental y generalización de objetos, y usaron mandíbulas de mano para recopilar datos de demostración humanos en diversos entornos y diferentes objetos, y modelaron estos datos utilizando estrategias de difusión. Los investigadores primero se centraron en las dos tareas de vertido de agua y colocación del mouse.
Los resultados de la investigación muestran que:
La capacidad de generalización de la estrategia para un nuevo objeto, un nuevo entorno o ambos es la ley de poder relacionada con el número de objetos de capacitación, entornos de capacitación o pares de entornos de entrenamiento, respectivamente.
Aumentar la diversidad de entornos y objetos es más efectivo que aumentar el número de demostraciones para cada entorno u objeto.
Recopile datos en tantos entornos como sea posible (por ejemplo, 32 entornos), con un objeto de operación único y 50 demostraciones en cada entorno, puede capacitar una estrategia con una capacidad de generalización sólida (tasa de éxito del 90%) para que pueda funcionar con un nuevo entornos y nuevos objetos.
Según estas leyes de escala de datos, los investigadores han propuesto una estrategia de recopilación de datos eficiente. Recomendan recopilar datos en tantos entornos diferentes como sea posible, usar solo un objeto único en cada entorno. Cuando el número total de pares de objeto ambiental alcanza 32, generalmente es suficiente capacitar a una estrategia que puede operar en un nuevo entorno e interactuar con objetos que no se habían visto antes. Para cada par de objeto ambiental, se recomiendan 50 demostraciones para recolectar.
Para verificar la aplicabilidad universal de la estrategia de recopilación de datos, los investigadores la aplicaron a dos nuevas tareas: doblar la toalla y desconectar el cargador. Los resultados muestran que esta estrategia también puede capacitar estrategias con fuertes capacidades de generalización en estas dos nuevas tareas.
El estudio muestra que se puede implementar una estrategia de una sola tarea que se puede implementar en cualquier entorno y objeto invirtiendo tiempo y recursos relativamente modestos. Para apoyar aún más los esfuerzos de los investigadores a este respecto, el equipo de Tsinghua lanzó su código, datos y modelos, con la esperanza de inspirar más investigaciones en el campo y, en última instancia, implementar un robot universal que puede resolver problemas complejos en el mundo abierto.
Dirección en papel: https://arxiv.org/pdf/2410.18647
Este estudio proporciona una orientación teórica importante y métodos prácticos para el aprendizaje de imitación de robots, y sienta una base sólida para construir un sistema inteligente robot más generalizado. El código abierto de este resultado de la investigación también proporciona recursos valiosos para que otros investigadores promuevan el desarrollo del campo.