A pesquisa sobre a escala de dados no campo da manipulação do robô sempre foi um grande desafio no campo da aprendizagem de robôs. A pesquisa existente se concentra nos campos do processamento de linguagem natural e da visão computacional, enquanto a pesquisa no campo da manipulação do robô é relativamente escassa. Este artigo apresenta os resultados mais recentes da equipe de pesquisa da Universidade Tsinghua.
O rápido desenvolvimento de aprendizado profundo é inseparável a partir de conjuntos de dados em larga escala, modelos e volume computacional. Nos campos do processamento da linguagem natural e da visão computacional, os pesquisadores descobriram uma relação de poder de poder entre o desempenho do modelo e a escala de dados. No entanto, o campo dos robôs, especialmente a manipulação do robô, ainda não estabeleceu leis de escala semelhantes.
Uma equipe de pesquisa da Universidade de Tsinghua publicou recentemente um artigo explorando a escala de dados no aprendizado de imitação de robôs e propôs uma estratégia de coleta de dados eficiente que coletava dados suficientes em apenas uma tarde para tornar a capacidade de estratégia para obter uma taxa de sucesso de cerca de 90% em novos ambientes e novos objetos.
Os pesquisadores dividiram as capacidades de generalização em duas dimensões: generalização ambiental e generalização de objetos e usaram mandíbulas de mão para coletar dados de demonstração humana em vários ambientes e objetos diferentes e modelaram esses dados usando estratégias de difusão. Os pesquisadores se concentraram primeiro nas duas tarefas de derramamento de água e colocação do mouse.
Os resultados da pesquisa mostram que:
A capacidade de generalização da estratégia para um novo objeto, um novo ambiente ou ambos está relacionado ao poder relacionado ao número de objetos de treinamento, ambientes de treinamento ou pares de objeto de meio ambiente, respectivamente.
Aumentar a diversidade de ambientes e objetos é mais eficaz do que aumentar o número de demonstrações para cada ambiente ou objeto.
Colete dados no maior número possível de ambientes (por exemplo, 32 ambientes), com um objeto de operação exclusivo e 50 demonstrações em cada ambiente, você pode treinar uma estratégia com forte capacidade de generalização (taxa de sucesso de 90%) para que ele possa operar em novas ambientes e novos objetos.
Com base nessas leis de escala de dados, os pesquisadores propuseram uma estratégia eficiente de coleta de dados. Eles recomendam coletar dados no maior número possível de ambientes diferentes, usando apenas um objeto exclusivo em cada ambiente. Quando o número total de pares de objetos ambientais atinge 32, geralmente é suficiente para treinar uma estratégia que pode operar em um novo ambiente e interagir com objetos que nunca foram vistos antes. Para cada par de objetos ambientais, são recomendados 50 demos para coletar.
Para verificar a aplicabilidade universal da estratégia de coleta de dados, os pesquisadores a aplicaram a duas novas tarefas: dobrando a toalha e desconectando o carregador. Os resultados mostram que essa estratégia também pode treinar estratégias com fortes recursos de generalização nessas duas novas tarefas.
O estudo mostra que uma estratégia de tarefa única que pode ser implantada para qualquer ambiente e objeto, investindo tempo e recursos relativamente modestos. Para apoiar ainda mais os esforços dos pesquisadores nesse sentido, a equipe Tsinghua divulgou seu código, dados e modelos, na esperança de inspirar mais pesquisas no campo e, finalmente, implementar um robô universal que pode resolver problemas complexos e de mundo aberto.
Endereço em papel: https://arxiv.org/pdf/2410.18647
Este estudo fornece importantes orientações teóricas e métodos práticos para o aprendizado de imitação de robôs e estabelece uma base sólida para a construção de um sistema inteligente de robô mais generalizado. O código aberto desta pesquisa também fornece recursos valiosos para outros pesquisadores promover o desenvolvimento do campo.