Uma equipe de pesquisa do Bair Laboratory da Universidade da Califórnia, Berkeley desenvolveu uma estrutura de aprendizado de reforço chamada Hil-Serl, que aprimora significativamente a capacidade dos robôs de aprender habilidades operacionais complexas no mundo real. Ele combina inteligentemente demonstração humana, correção e algoritmos de aprendizado de reforço eficientes, permitindo que os robôs dominem várias operações de precisão em pouco tempo, rompendo os gargalos de aprendizado lento e robôs propensos a erros anteriores. Espera -se que essa tecnologia inovadora revolucione a maneira como os robôs aprendem e aplicam, estabelecendo uma base sólida para a automação industrial e a popularização dos robôs na vida cotidiana.
Recentemente, a equipe de pesquisa de Sergey Levine, do Bair Laboratory da Universidade da Califórnia, Berkeley propôs uma estrutura de aprendizado de reforço chamada Hil-Serl para resolver o problema dos robôs que aprendem habilidades operacionais complexas no mundo real.
Essa nova tecnologia combina demonstração humana e correção com algoritmos de aprendizado de reforço eficientes, permitindo que os robôs dominem uma variedade de tarefas operacionais sofisticadas e hábiles, como operação dinâmica, montagem de precisão e colaboração de dois braços em apenas uma a 2,5 horas.
No passado, era tão difícil deixar um robô aprender novas habilidades, assim como ensinar uma criança travessa a fazer lição de casa, que tinha que ser ensinada passo a passo e corrigida repetidamente. O que é ainda mais problemático é que várias situações no mundo real são complexas e mutáveis.
A estrutura HIL-Serl é como pedir a um "tutor" para o robô.
Você só precisa demonstrar algumas vezes, e o robô pode concluir várias operações de maneira decente, desde brincar com blocos de construção, virar panquecas, montar móveis e instalar placas de circuito, é simplesmente onipotente!
Para fazer com que os robôs aprendam mais rápido e melhor, o HIL-Serl também apresenta um mecanismo de correção para a interação humano-computador. Simplificando, quando um robô comete um erro, os operadores humanos podem intervir com o tempo para corrigi -lo e feed, feedback essas informações de correção ao robô. Dessa forma, o robô pode aprender constantemente com os erros, evitar cometer erros repetidamente e, eventualmente, se tornar um verdadeiro mestre.
Após uma série de experimentos, o efeito do Hil-Serl é incrível. Em várias tarefas, os robôs alcançaram uma taxa de sucesso de quase 100% em apenas 1 a 2,5 horas, e a velocidade de operação é quase 2 vezes mais rápida do que antes.
Mais importante, o HIL-Serl é o primeiro sistema a implementar a coordenação de armas duplas baseadas em entrada de imagem usando o aprendizado de reforço no mundo real, ou seja, permite que dois armas de robô trabalhem juntos para concluir tarefas mais complexas. A correia de sincronização requer uma operação altamente coordenada.
O surgimento de Hil-Serl não apenas nos permite ver o enorme potencial do aprendizado de robôs, mas também aponta a direção para futuras aplicações e pesquisas industriais. Talvez no futuro, cada um de nós tenha um "aprendiz" de robô em nossa casa, que nos ajudará a fazer tarefas domésticas, montar móveis e até jogar conosco.
Obviamente, Hil-Serl também tem algumas limitações. Por exemplo, para algumas tarefas que exigem planejamento a longo prazo, pode parecer esmagador. Além disso, atualmente o HIL-Serl é testado principalmente em ambientes de laboratório e não foi verificado em larga escala em cenários da vida real. No entanto, acredito que, com o avanço da tecnologia, esses problemas serão gradualmente resolvidos.
Endereço em papel: https://hil-serl.github.io/static/hil-serl-paper.pdf
Endereço do projeto: https://hil-serl.github.io/
Em resumo, a estrutura HIL-SERL trouxe progresso significativo ao campo da aprendizagem de robôs, e sua capacidade de aprendizado eficiente e mecanismos de interação humano-computador permitiram que ele mostrasse um grande potencial em aplicações da vida real. Embora ainda existam algumas limitações, vale a pena esperar as perspectivas futuras de desenvolvimento.