Un equipo de investigación en el Laboratorio Bair de la Universidad de California, Berkeley ha desarrollado un marco de aprendizaje de refuerzo llamado HIL-SERL que mejora significativamente la capacidad de los robots para aprender habilidades operativas complejas en el mundo real. Combina inteligentemente los algoritmos de aprendizaje de refuerzo humano, corrección y refuerzo eficientes, lo que permite a los robots dominar varias operaciones de precisión en poco tiempo, rompiendo los cuellos de botella de los robots lentos y propensos a errores anteriores. Se espera que esta tecnología innovadora revolucione la forma en que los robots aprenden y aplican, estableciendo una base sólida para la automatización industrial y la popularización de los robots en la vida diaria.
Recientemente, el equipo de investigación de Sergey Levine del Laboratorio Bair de la Universidad de California, Berkeley, propuso un marco de aprendizaje de refuerzo llamado Hil-Serl para resolver el problema de los robots que aprenden habilidades operativas complejas en el mundo real.
Esta nueva tecnología combina la demostración y corrección humana con algoritmos eficientes de aprendizaje de refuerzo, lo que permite a los robots dominar una variedad de tareas operativas sofisticadas y hábiles, como operación dinámica, ensamblaje de precisión y colaboración de dos brazos en solo una a 2.5 horas.
En el pasado, era muy difícil dejar que un robot aprendiera nuevas habilidades, al igual que enseñarle a un niño travieso a hacer la tarea, que tenía que enseñarse paso a paso y corregirse una y otra vez. Lo que es aún más problemático es que varias situaciones en el mundo real son complejos y cambiantes.
El marco HIL-Serl es como pedir un "tutor" para el robot.
Solo necesita demostrar algunas veces, y el robot puede completar varias operaciones de manera decente, desde jugar con bloques de construcción, voltear panqueques, ensamblar muebles e instalar tableros de circuitos, ¡es simplemente omnipotente!
Para hacer que los robots aprendan más rápido y mejor, Hil-Serl también introduce un mecanismo de corrección para la interacción humana-computadora. En pocas palabras, cuando un robot comete un error, los operadores humanos pueden intervenir a tiempo para corregirlo y retroalimentar esta información de corrección al robot. De esta manera, el robot puede aprender constantemente de los errores, evitar cometer errores repetidamente y eventualmente convertirse en un verdadero maestro.
Después de una serie de experimentos, el efecto de Hil-Serl es sorprendente. En varias tareas, los robots han alcanzado una tasa de éxito de casi el 100% en solo 1 a 2.5 horas, y la velocidad de operación es casi 2 veces más rápida que antes.
Más importante aún, HIL-SERL es el primer sistema que implementa la coordinación de doble brazo basada en imágenes utilizando el aprendizaje de refuerzo en el mundo real, es decir, permite que dos brazos de robot trabajen juntos para completar tareas más complejas. El cinturón de sincronización requiere una operación altamente coordinada.
La aparición de HIL-serl no solo nos permite ver el enorme potencial del aprendizaje de los robots, sino que también señala la dirección para futuras aplicaciones e investigaciones industriales. Tal vez en el futuro, cada uno de nosotros tendrá un "aprendiz" robot en nuestra casa, que nos ayudará a hacer tareas domésticas, reunir muebles e incluso jugar con nosotros.
Por supuesto, Hil-Serl también tiene algunas limitaciones. Por ejemplo, para algunas tareas que requieren una planificación a largo plazo, puede parecer abrumador. Además, actualmente HIL-SERL se prueba principalmente en entornos de laboratorio y no se ha verificado a gran escala en escenarios de la vida real. Sin embargo, creo que con el avance de la tecnología, estos problemas se resolverán gradualmente.
Dirección en papel: https://hil-serl.github.io/static/hil-serl-paper.pdf
Dirección del proyecto: https://hil-serl.github.io/
En resumen, el marco HIL-SERL ha traído un progreso significativo al campo del aprendizaje de robots, y su capacidad de aprendizaje eficiente y los mecanismos de interacción humano-computadora han permitido mostrar un gran potencial en las aplicaciones de la vida real. Aunque todavía hay algunas limitaciones, vale la pena esperar las perspectivas de desarrollo futuras.