Pendant longtemps, le mouvement agile des robots humanoïdes a été un énorme défi dans le domaine de la recherche sur les robots. Les différences physiques entre l'environnement simulé et le monde réel rendent difficile pour les robots d'appliquer directement les résultats de la formation de simulation à la réalité. Cet article présente un nouveau cadre intitulé ASAP (simulation d'alignement et physique réelle), qui résout efficacement ce problème en alignant intelligemment la simulation et les caractéristiques physiques réelles, permettant aux robots humanoïdes d'obtenir un mouvement complet plus flexible et coordonné.
Pendant longtemps, les gens ont rêvé que les robots humanoïdes peuvent être aussi flexibles que les humains et même dépasser les humains. Cependant, en raison des différences physiques entre l'environnement simulé et le monde réel, la coordination du corps complet et le mouvement agile du robot restent un énorme défi. Les méthodes traditionnelles d'identification du système et de randomisation du domaine reposent souvent sur des ajustements de paramètres lourds, ou conduisent à des mouvements de robots trop conservateurs, sacrifiant l'agilité. Maintenant, un nouveau cadre appelé ASAP (simulation d'alignement et de physique réelle).
Le cadre ASAP est divisé en deux étapes clés. Tout d'abord, pendant la phase de pré-formation, les chercheurs utiliseront les données vidéo de mouvement humain pour remédier à ces actions sur le robot humanoïde, puis formeront le robot à apprendre ces actions dans un environnement simulé. Cependant, l'application des stratégies qualifiées dans l'environnement simulé à des robots réelles conduira souvent à une dégradation des performances car il existe des différences dynamiques entre l'environnement simulé et le monde réel. Pour résoudre ce problème, le cadre ASAP entre dans la deuxième phase - la phase post-entraînement. À ce stade, les chercheurs demanderont au robot d'effectuer des actions pré-formées dans le monde réel et d'enregistrer la trajectoire de mouvement réelle du robot.
Ensuite, le cadre ASAP utilisera ces données de mouvement du monde réel pour reproduire le mouvement du robot dans le simulateur. En raison des différences dans l'environnement simulé et le monde réel, la trajectoire de mouvement simulée s'écarte souvent de la trajectoire réelle de mouvement. Cette différence fournit simplement aux chercheurs un signal à apprendre. ASAP entraîne un "modèle d'action de différence" qui apprend et compense les différences dynamiques entre la simulation et la réalité. Ce modèle est comme une "correction d'erreur" qui peut corriger les lacunes dans le simulateur et les rapprocher des caractéristiques physiques du monde réel. Enfin, les chercheurs intégreront ce "modèle d'action de différence" dans le simulateur et l'utiliseront pour affiner la stratégie de suivi du mouvement pré-formé, afin que les mouvements du robot puissent mieux s'adapter aux propriétés physiques du monde réel. La stratégie affinée peut être déployée directement sur des robots du monde réel sans avoir besoin d'utiliser le "modèle d'action de différence".
Pour vérifier l'efficacité du cadre ASAP, les chercheurs ont mené plusieurs expériences, notamment la migration entre différents simulateurs et les tests sur le véritable robot humanoïde Uniree G1. Les résultats expérimentaux montrent que le cadre ASAP améliore considérablement l'agilité et la coordination du corps entier des robots dans divers mouvements dynamiques.
Le succès du cadre ASAP est qu'il peut efficacement combler les différences dynamiques entre l'environnement simulé et le monde réel, de sorte que les robots humanoïdes formés dans l'environnement simulé peuvent vraiment démontrer une superbe agilité dans le monde réel, ce qui rend le développement plus flexible et le Le robot humanoïde multifonctionnel souligne une nouvelle direction.
Les technologies clés du cadre ASAP comprennent:
Pré-formation à l'aide de données de mouvement humain: convertir les mouvements agiles humains en objectifs d'apprentissage des robots pour fournir aux robots des données de mouvement de haute qualité.
Formation des modèles d'action différentielle: En apprenant les différences entre le monde réel et l'environnement de simulation, compensez dynamiquement les lacunes du simulateur et améliorez la précision de la simulation.
La stratégie ajustée en fonction des modèles d'action différentielle: permet aux stratégies de robot de s'adapter aux caractéristiques physiques du monde réel et finalement d'atteindre des performances de mouvement plus élevées.
La vérification expérimentale du cadre ASAP montre que:
Dans la migration entre les simulateurs, ASAP est capable de réduire considérablement les erreurs de suivi du mouvement, ce qui est supérieur aux autres méthodes de référence.
Lors des tests sur de vrais robots, ASAP peut également améliorer considérablement les performances de mouvement du robot, permettant au robot de terminer des mouvements agiles difficiles.
L'étude explore également en profondeur les facteurs clés de la formation des modèles d'action différentielle, y compris la taille de l'ensemble de données, la durée de la formation et le poids des normes d'action. De plus, les chercheurs ont comparé différentes stratégies d'utilisation du modèle d'action différentielle et ont finalement confirmé que la méthode de réglage fin de l'apprentissage du renforcement peut atteindre des performances optimales.
Malgré les progrès remarquables du cadre ASAP, il a toujours certaines limites, telles que les limitations matérielles, la dépendance à l'égard des systèmes de capture de mouvement et des demandes élevées de données. Les orientations de recherche futures peuvent inclure le développement d'architectures stratégiques qui peuvent percevoir les dommages matériels, tirer parti de l'estimation de la pose sans marque ou de la fusion de capteurs intégrés pour réduire la dépendance aux systèmes de capture de mouvement et explorer des techniques adaptatives plus efficaces pour les modèles d'action différentielle.
L'émergence du cadre ASAP a apporté un nouvel espoir dans le domaine des robots humanoïdes. En résolvant intelligemment les différences dynamiques entre la simulation et la réalité, ASAP permet aux robots humanoïdes de maîtriser la motricité plus agile et coordonnée, jetant une base solide pour l'application généralisée de robots humanoïdes dans le monde réel à l'avenir.
Adresse du projet: https://agile.human2humanoid.com/
Adresse papier: https://arxiv.org/pdf/2502.01143
Le cadre ASAP fournit une solution efficace pour résoudre l'écart entre la simulation des robots humanoïdes et la réalité. . Les recherches futures peuvent encore optimiser le cadre ASAP pour le rendre plus robuste et efficace dans les applications pratiques.