Durante muito tempo, o movimento ágil de robôs humanóides tem sido um enorme desafio no campo da pesquisa de robôs. As diferenças físicas entre o ambiente simulado e o mundo real dificultam que os robôs apliquem diretamente os resultados do treinamento de simulação à realidade. Este artigo apresenta uma nova estrutura chamada ASAP (alinhamento de simulação e física real), que resolve efetivamente esse problema, alinhando inteligentemente a simulação e as características físicas reais, permitindo que os robôs humanóides obtenham o movimento de corpo inteiro mais flexível e coordenado.
Durante muito tempo, as pessoas sonham que os robôs humanóides podem ser tão flexíveis quanto os seres humanos e até superar os seres humanos. No entanto, devido às diferenças físicas entre o ambiente simulado e o mundo real, alcançar a coordenação de corpo inteiro e o movimento ágil do robô continua sendo um enorme desafio. Os métodos tradicionais de identificação e randomização do domínio do sistema geralmente dependem de ajustes complicados de parâmetros, ou levam a movimentos de robôs serem muito conservadores, sacrificando a agilidade. Agora, surge uma nova estrutura chamada simulação de alinhamento e física real).
A estrutura o mais rápido possível é dividida em dois estágios -chave. Primeiro, durante a fase de pré-treinamento, os pesquisadores usarão dados de vídeo em movimento humano para remapear essas ações no robô humanóide e, em seguida, treinarão o robô para aprender essas ações em um ambiente simulado. No entanto, a aplicação das estratégias treinadas no ambiente simulado a robôs reais diretamente geralmente leva à degradação do desempenho, porque existem diferenças dinâmicas entre o ambiente simulado e o mundo real. Para resolver esse problema, a estrutura o mais rápido possível entra na segunda fase - a fase pós -treinamento. Nesta fase, os pesquisadores pedirão ao robô que executem ações pré-treinadas no mundo real e registrem a trajetória de movimento real do robô.
Em seguida, a estrutura o asaper usará esses dados de movimento do mundo real para reproduzir o movimento do robô no simulador. Devido a diferenças no ambiente simulado e no mundo real, a trajetória de movimento simulada geralmente se desvia da trajetória de movimento real. Acontece que essa diferença fornece aos pesquisadores um sinal para aprender. O ASAP treina um "modelo de ação de diferença" que aprende e compensa diferenças dinâmicas entre simulação e realidade. Este modelo é como uma "correção de erros" que pode corrigir as deficiências no simulador e aproximá-las das características físicas do mundo real. Finalmente, os pesquisadores integrarão esse "modelo de ação de diferença" no simulador e o usarão para ajustar a estratégia de rastreamento de movimento pré-treinada, para que os movimentos do robô possam se adaptar melhor às propriedades físicas do mundo real. A estratégia ajustada pode ser implantada diretamente para robôs do mundo real sem a necessidade de usar o "Modelo de Ação de Diferença".
Para verificar a eficácia da estrutura o mais rápido possível, os pesquisadores conduziram várias experiências, incluindo a migração entre diferentes simuladores e testes no robô humanóide real unitário G1. Resultados experimentais mostram que a estrutura ASAP melhora significativamente a agilidade e a coordenação de corpo inteiro de robôs em vários movimentos dinâmicos.
O sucesso da estrutura o asapa é que ela pode efetivamente preencher as diferenças dinâmicas entre o ambiente simulado e o mundo real, de modo que os robôs humanóides treinados no ambiente simulado podem realmente demonstrar uma excelente agilidade no mundo real, o que torna o desenvolvimento mais flexível e o O robô humanóide multifuncional aponta uma nova direção.
As principais tecnologias da estrutura o mais rápido possível incluem:
Pré-treinamento usando dados de movimento humano: converta movimentos ágeis humanos em metas de aprendizado de robôs para fornecer aos robôs dados de movimento de alta qualidade.
Treinamento de modelos de ação diferencial: aprendendo as diferenças entre o mundo real e o ambiente de simulação, compensa dinamicamente as deficiências do simulador e melhore a precisão da simulação.
A estratégia de ajuste fina com base em modelos de ação diferencial: permite que as estratégias de robôs se adaptem às características físicas do mundo real e, finalmente, alcançam um desempenho de movimento mais alto.
A verificação experimental da estrutura o mais rápido possível mostra que:
Na migração entre simuladores, o ASAP é capaz de reduzir significativamente os erros de rastreamento de movimento, o que é superior a outros métodos de referência.
Ao testar em robôs reais, o ASAP também pode melhorar significativamente o desempenho do movimento do robô, permitindo que o robô complete movimentos ágeis difíceis.
O estudo também explora profundamente os principais fatores de treinamento de modelos de ação diferencial, incluindo tamanho do conjunto de dados, duração do treinamento e peso da norma de ação. Além disso, os pesquisadores compararam diferentes estratégias de uso do modelo de ação diferencial e, finalmente, confirmaram que o método de ajuste fino de aprendizado de reforço pode obter desempenho ideal.
Apesar do progresso notável da estrutura o mais rápido possível, ele ainda possui algumas limitações, como limitações de hardware, dependência de sistemas de captura de movimento e altas demandas de dados. As instruções futuras de pesquisa podem incluir o desenvolvimento de arquiteturas estratégicas que podem perceber danos nos hardware, alavancar a estimativa de pose sem marcas ou a fusão de sensores a bordo para reduzir a dependência de sistemas de captura de movimento e explorar técnicas adaptativas mais eficientes para modelos de ação diferencial.
O surgimento da estrutura o asapa trouxe nova esperança ao campo dos robôs humanóides. Ao resolver inteligentemente as diferenças dinâmicas entre simulação e realidade, o ASAP permite que os robôs humanóides dominem as habilidades motoras mais ágeis e coordenadas, estabelecendo uma base sólida para a aplicação generalizada de robôs humanóides no mundo real no futuro.
Endereço do projeto: https://agile.human2humanoid.com/
Endereço em papel: https://arxiv.org/pdf/2502.01143
A estrutura o mais rápido possível fornece uma solução eficaz para resolver a lacuna entre a simulação de robôs humanóides e a realidade. . Pesquisas futuras podem otimizar ainda mais a estrutura o mais robusta para torná -la mais robusta e eficiente em aplicações práticas.