Le développement de l’apprentissage profond dans le domaine du contrôle des robots est limité par le manque de modèles de données à grande échelle. Une équipe de recherche de l'Université Tsinghua a récemment réalisé une percée grâce à une stratégie efficace de collecte de données, elle a collecté suffisamment de données en un seul après-midi, atteignant un taux de réussite de 90 % pour la stratégie robotique dans de nouveaux environnements et de nouveaux objets. L'éditeur de Downcodes vous amènera à comprendre les résultats de cette recherche et les règles de mise à l'échelle des données qui la sous-tendent.
Le développement rapide du deep learning est indissociable des ensembles de données, modèles et calculs à grande échelle. Dans les domaines du traitement du langage naturel et de la vision par ordinateur, les chercheurs ont découvert une relation de puissance entre les performances du modèle et la taille des données. Cependant, le domaine de la robotique, en particulier celui du contrôle des robots, n’a pas encore établi de règles d’échelle similaires.
Une équipe de recherche de l'Université Tsinghua a récemment publié un article explorant les règles de mise à l'échelle des données dans l'apprentissage par imitation de robots et a proposé une stratégie efficace de collecte de données qui collectait suffisamment de données en un seul après-midi, ce qui rendait la stratégie capable d'atteindre un taux de réussite d'environ 90 % sur de nouveaux environnements et nouveaux objets.
Les chercheurs ont divisé la capacité de généralisation en deux dimensions : la généralisation de l'environnement et la généralisation des objets, et ont utilisé une pince portative pour collecter des données de démonstration humaine sur divers environnements et différents objets, et ont modélisé ces données à l'aide d'une stratégie de diffusion. Les chercheurs se sont d’abord concentrés sur deux tâches : verser de l’eau et placer la souris. En analysant comment les performances de la stratégie sur de nouveaux environnements ou de nouveaux objets évoluent avec l’augmentation du nombre d’environnements ou d’objets d’entraînement, ils ont résumé les règles de mise à l’échelle des données.
Les résultats de la recherche montrent :
La capacité d'une politique à se généraliser à de nouveaux objets, de nouveaux environnements, ou les deux, a une relation de puissance avec le nombre d'objets de formation, d'environnements de formation ou de paires environnement-objet de formation, respectivement.
Augmenter la variété des environnements et des objets est plus efficace que d'augmenter le nombre de démonstrations de chaque environnement ou objet.
En collectant des données dans autant d'environnements que possible (par exemple 32 environnements), avec un objet opérationnel unique et 50 démonstrations dans chaque environnement, une stratégie à forte capacité de généralisation (taux de réussite de 90 %) peut être formée, afin qu'elle puisse s'exécuter sur de nouveaux environnements et de nouveaux objets.
Sur la base de ces règles de mise à l’échelle des données, les chercheurs ont proposé une stratégie efficace de collecte de données. Ils recommandent de collecter des données dans autant d'environnements différents que possible, en utilisant un seul objet unique dans chaque environnement. Lorsque le nombre total de paires environnement-objet atteint 32, il suffit généralement de former une politique capable de fonctionner dans de nouveaux environnements et d'interagir avec des objets auparavant inédits. Pour chaque couple environnement-objet, il est recommandé de collecter 50 démos.
Pour vérifier l'applicabilité générale de la stratégie de collecte de données, les chercheurs l'ont appliquée à deux nouvelles tâches : plier une serviette et débrancher un chargeur. Les résultats montrent que cette stratégie peut également entraîner des stratégies à forte capacité de généralisation sur ces deux nouvelles tâches.
Cette étude montre qu'avec un investissement relativement modeste en temps et en ressources, il est possible d'apprendre une politique de tâche unique qui peut être déployée sur n'importe quel environnement et objet avec un déploiement zéro. Pour soutenir davantage les efforts des chercheurs dans ce domaine, l'équipe Tsinghua a publié son code, ses données et ses modèles dans l'espoir d'inspirer de nouvelles recherches dans ce domaine et, à terme, de réaliser des robots universels capables de résoudre des problèmes complexes en monde ouvert.
Adresse papier : https://arxiv.org/pdf/2410.18647
Cette recherche fournit une expérience précieuse pour les règles de mise à l'échelle des données dans le domaine du contrôle des robots, et des stratégies efficaces de collecte de données ouvrent également de nouvelles orientations pour les recherches futures. Le code source ouvert, les données et les modèles de l’équipe de l’Université Tsinghua favoriseront davantage le développement de ce domaine et, à terme, permettront de réaliser des robots polyvalents plus puissants.