O desenvolvimento da aprendizagem profunda na área de controle de robôs é limitado pela falta de padrões de dados em grande escala. Uma equipe de pesquisa da Universidade de Tsinghua fez recentemente um avanço. Através de uma estratégia eficiente de coleta de dados, coletou dados suficientes em apenas uma tarde, alcançando uma taxa de sucesso de 90% para a estratégia do robô em novos ambientes e novos objetos. O editor de Downcodes levará você a entender os resultados desta pesquisa e as regras de escalonamento de dados por trás dela.
O rápido desenvolvimento da aprendizagem profunda é inseparável de conjuntos de dados, modelos e cálculos em grande escala. Nas áreas de processamento de linguagem natural e visão computacional, os pesquisadores descobriram uma relação de lei de potência entre o desempenho do modelo e o tamanho dos dados. No entanto, o campo da robótica, especialmente o campo do controle de robôs, ainda não estabeleceu regras de escala semelhantes.
Uma equipe de pesquisa da Universidade de Tsinghua publicou recentemente um artigo explorando as regras de escalonamento de dados na aprendizagem por imitação de robôs e propôs uma estratégia eficiente de coleta de dados que coletou dados suficientes em apenas uma tarde, tornando a estratégia capaz de atingir uma taxa de sucesso de aproximadamente 90% em novos ambientes e novos objetos.
Os pesquisadores dividiram a capacidade de generalização em duas dimensões: generalização de ambiente e generalização de objeto, e usaram uma pinça portátil para coletar dados de demonstração humana em vários ambientes e objetos diferentes, e modelaram esses dados usando uma estratégia de difusão. Os pesquisadores primeiro se concentraram em duas tarefas: despejar água e posicionar o mouse. Ao analisar como o desempenho da estratégia em novos ambientes ou novos objetos muda com o aumento do número de ambientes ou objetos de treinamento, eles resumiram as regras de escalonamento de dados.
Os resultados da pesquisa mostram:
A capacidade de uma política generalizar para novos objetos, novos ambientes, ou ambos, tem uma relação de lei de potência com o número de objetos de treinamento, ambientes de treinamento ou pares ambiente-objeto de treinamento, respectivamente.
Aumentar a variedade de ambientes e objetos é mais eficaz do que aumentar o número de demonstrações de cada ambiente ou objeto.
Ao coletar dados em tantos ambientes quanto possível (por exemplo, 32 ambientes), com um objeto operacional único e 50 demonstrações em cada ambiente, uma estratégia com forte capacidade de generalização (taxa de sucesso de 90%) pode ser treinada, para que possa ser executada em novos ambientes e novos objetos.
Com base nessas regras de escalonamento de dados, os pesquisadores propuseram uma estratégia eficiente de coleta de dados. Eles recomendam a coleta de dados em tantos ambientes diferentes quanto possível, usando apenas um objeto exclusivo em cada ambiente. Quando o número total de pares ambiente-objeto chega a 32, geralmente é suficiente treinar uma política que possa operar em novos ambientes e interagir com objetos anteriormente invisíveis. Para cada par ambiente-objeto, recomenda-se coletar 50 demos.
Para verificar a aplicabilidade geral da estratégia de recolha de dados, os investigadores aplicaram-na a duas novas tarefas: dobrar uma toalha e desligar um carregador. Os resultados mostram que esta estratégia também pode treinar estratégias com forte capacidade de generalização nestas duas novas tarefas.
Este estudo mostra que, com um investimento relativamente modesto de tempo e recursos, é possível aprender uma política de tarefa única que pode ser implantada em qualquer ambiente e objeto com implantação zero-shot. Para apoiar ainda mais os esforços dos investigadores nesta área, a equipa de Tsinghua divulgou o seu código, dados e modelos na esperança de inspirar novas pesquisas no campo e, em última análise, criar robôs universais capazes de resolver problemas complexos e de mundo aberto.
Endereço do artigo: https://arxiv.org/pdf/2410.18647
Esta pesquisa fornece uma experiência valiosa para as regras de escalonamento de dados no campo do controle de robôs, e estratégias eficientes de coleta de dados também fornecem novas direções para pesquisas futuras. O código-fonte aberto, os dados e os modelos da equipe da Universidade de Tsinghua promoverão ainda mais o desenvolvimento deste campo e, em última análise, alcançarão robôs de uso geral mais poderosos.