La recherche sur l'échelle des données dans le domaine de la manipulation des robots a toujours été un défi majeur dans le domaine de l'apprentissage des robots. La recherche existante se concentre sur les domaines du traitement du langage naturel et de la vision par ordinateur, tandis que la recherche sur le domaine de la manipulation du robot est relativement rare. Cet article présente les derniers résultats de recherche de l'équipe de recherche de l'Université Tsinghua.
Le développement rapide de l'apprentissage en profondeur est inséparable à partir d'ensembles de données à grande échelle, de modèles et de volume de calcul. Dans les domaines du traitement du langage naturel et de la vision par ordinateur, les chercheurs ont découvert une relation de loi de puissance entre les performances du modèle et l'échelle de données. Cependant, le domaine des robots, en particulier la manipulation des robots, n'a pas encore établi de lois à échelle similaire.
Une équipe de recherche de l'Université de Tsinghua a récemment publié un article explorant l'échelle des données dans l'apprentissage de l'imitation des robots et a proposé une stratégie efficace de collecte de données qui a collecté suffisamment de données en un seul après-midi pour rendre la capacité de stratégie à atteindre un taux de réussite d'environ 90% sur de nouveaux environnements et nouveaux objets.
Les chercheurs ont divisé les capacités de généralisation en deux dimensions: la généralisation de l'environnement et la généralisation des objets, et ont utilisé des mâchoires portables pour collecter des données de démonstration humaine sur divers environnements et différents objets, et modélisé ces données en utilisant des stratégies de diffusion. Les chercheurs se sont d'abord concentrés sur les deux tâches de la mise en place de l'eau et du placement de la souris en analysant comment les performances des stratégies sur de nouveaux environnements ou de nouveaux objets changent avec l'augmentation du nombre d'objets, ils ont résumé les règles d'échelle de données.
Les résultats de la recherche montrent que:
La capacité de généralisation de la stratégie à un nouvel objet, à un nouvel environnement ou aux deux est une loi de puissance liée au nombre d'objets de formation, aux environnements de formation ou aux paires d'objets environnementaux de formation, respectivement.
L'augmentation de la diversité des environnements et des objets est plus efficace que d'augmenter le nombre de démonstrations pour chaque environnement ou objet.
Collectez des données dans autant d'environnements que possible (par exemple, 32 environnements), avec un objet d'opération unique et 50 démonstrations dans chaque environnement, vous pouvez former une stratégie avec une forte capacité de généralisation (taux de réussite de 90%) pour qu'il puisse fonctionner sur de nouveaux environnements et nouveaux objets.
Sur la base de ces lois sur l'échelle des données, les chercheurs ont proposé une stratégie efficace de collecte de données. Ils recommandent de collecter des données dans autant d'environnements différents que possible, en utilisant un seul objet unique dans chaque environnement. Lorsque le nombre total de paires d'environnement-objet atteint 32, il suffit généralement de former une stratégie qui peut fonctionner dans un nouvel environnement et interagir avec des objets qui n'ont jamais été vus auparavant. Pour chaque paire d'environnement-objet, 50 démos sont recommandées pour collecter.
Pour vérifier l'applicabilité universelle de la stratégie de collecte de données, les chercheurs l'ont appliqué à deux nouvelles tâches: plier la serviette et débrancher le chargeur. Les résultats montrent que cette stratégie peut également former des stratégies avec de fortes capacités de généralisation sur ces deux nouvelles tâches.
L'étude montre qu'une stratégie unique qui peut être déployée dans n'importe quel environnement et objet en investissant un temps et des ressources relativement modestes peut être appris. Pour soutenir davantage les efforts des chercheurs à cet égard, l'équipe de Tsinghua a publié son code, ses données et ses modèles, espérant inspirer des recherches supplémentaires sur le terrain et, finalement, mettre en œuvre un robot universel qui peut résoudre des problèmes complexes et en plein air.
Adresse papier: https://arxiv.org/pdf/2410.18647
Cette étude fournit des conseils théoriques importants et des méthodes pratiques pour l'apprentissage de l'imitation des robots et jette une base solide pour construire un système intelligent de robot plus généralisé. L'open source de ce résultat de recherche fournit également des ressources précieuses aux autres chercheurs afin de promouvoir le développement du domaine.