Récemment, Hugging Face and Physical Intelligence a lancé conjointement "PI0" (PI-Zero), le premier modèle de base à convertir directement les commandes en langage naturel en actions physiques. Ce lancement innovant a attiré une attention généralisée et Remi Cadene, chercheur en chef de Hugging Face, a annoncé sur les réseaux sociaux que «PI0 est le modèle d'action du langage visuel le plus avancé qui peut transformer les commandes en langage naturel en comportement autonome».
Le lancement de "PI0" marque un changement majeur dans le domaine de la robotique, similaire à l'influence de Chatgpt dans le domaine de la génération de texte. Développé à l'origine par l'intelligence physique et désormais disponible sur la plate-forme Lerobot de l'étreinte, le modèle est capable d'effectuer des tâches complexes telles que les vêtements pliants, l'emballage des tables à manger et l'épicerie d'emballage, les compétences que les robots traditionnels sont difficiles à maîtriser.
"Les robots actuels ont tendance à être des experts du domaine étroit en se concentrant sur les actions répétitives, tandis que l'introduction de« PI0 »permet aux robots d'apprendre et d'effectuer des tâches par le biais d'instructions utilisateur, et la complexité de la programmation est réduite à la voix simple. Instruction."
Le cœur de la technologie "PI0" est une percée technologique importante. Le modèle forme les données de sept plates-formes de robots différentes et 68 tâches uniques, ce qui lui permet de gérer des tâches allant des opérations fines aux procédures complexes en plusieurs étapes. Dans le même temps, une nouvelle technologie de correspondance de débit est utilisée pour lui permettre de produire des trajectoires d'action en temps fluide et en temps réel à 50 fois par seconde, atteignant ainsi une précision élevée et une adaptabilité dans les applications du monde réel.
Sur cette base, l'équipe de développement a également lancé la version "PI0-Fast", qui combine un nouveau schéma de marquage - Marker de séquence d'action d'espace de fréquence (rapide), qui augmente la vitesse de formation cinq fois, et la capacité de généralisation a également été améliorée entre différents environnements et types de robots.
L'introduction de cette technologie aura un impact profond sur l'industrie. Les fabricants peuvent reprogrammer des robots avec des commandes vocales simples, tandis que les entrepôts peuvent déployer des systèmes d'automatisation plus flexibles au besoin. Les petites entreprises seront également plus faciles à accéder à la robotique, ce qui réduit les obstacles à la programmation et au déploiement.
Cependant, malgré les progrès significatifs de "PI0", il y a encore des défis. Ce modèle peut parfois rencontrer des difficultés lorsqu'il s'agit de tâches très complexes et nécessite des ressources informatiques considérables. De plus, les problèmes de fiabilité et de sécurité dans les environnements industriels ont encore besoin d'attention.
Le lancement de "PI0" arrive à une période critique de développement rapide de l'industrie de l'intelligence artificielle, et il représente la première tentative réussie entre les modèles linguistiques et le monde physique. Alors que la technologie continue de mûrir, les robots à l'avenir deviendront plus conversationnels, adaptables et faciles d'accès, favorisant l'utilisation généralisée des robots dans des domaines tels que les maisons, les hôpitaux et les petites entreprises.
PI0: https://huggingface.co/lerobot/pi0
Points clés:
PI0 est le premier modèle de robot à convertir les commandes en langage naturel en actions physiques, en modifiant la méthode de programmation traditionnelle.
Ce modèle a été formé par plusieurs plates-formes et multiples et peut effectuer des opérations quotidiennes complexes et réduire le seuil pour l'utilisation du robot.
La version PI0-Fast améliore la vitesse de formation et les capacités de généralisation et devrait accélérer la promotion de l'automatisation industrielle.
Avec le lancement de la technologie "PI0", le domaine des robots a inauguré de nouveaux changements et sera plus intelligent et pratique à l'avenir.