Waymo utilise les puissants Gémeaux du modèle de grande langue multimodal de Google pour révolutionner ses méthodes de formation en taxi autonome. Au cœur de cette percée se trouve un modèle multimodal de bout en bout appelé EMMA, qui peut traiter plus efficacement les données des capteurs, générant ainsi des prédictions plus précises de la trajectoire de conduite future. Cette décision améliore non seulement l'intelligence et la sécurité du système de conduite autonome de Waymo, mais marque également un saut majeur dans l'application de modèles de grandes langues dans le domaine de la conduite autonome, indiquant qu'à l'avenir, la technologie de conduite autonome dépassera la conception modulaire traditionnelle et Soyez plus intelligent, développez dans une direction plus indépendante.
Récemment, Waymo a franchi une autre étape importante dans le domaine de la conduite autonome. La société a longtemps considéré sa collaboration avec Google Deepmind comme son avantage concurrentiel, et tire maintenant parti du modèle de grande langue multimodal de Google, Gemini, pour améliorer la formation de ses taxis autonomes.
Waymo a publié un nouveau document de recherche introduisant un "modèle multimodal de bout en bout" appelé Emma, qui est capable de traiter les données des capteurs pour générer la trajectoire de conduite future des véhicules autonomes. Cela signifie que les véhicules sans conducteur de Waymo peuvent prendre des décisions de conduite plus intelligemment et éviter efficacement les obstacles.
L'importance de cette nouvelle technologie n'est pas seulement dans son innovation, mais aussi dans son potentiel pour changer la portée des applications de la plupart des modèles de langage à l'heure actuelle. Waymo veut voir MLLM comme un «citoyen de classe 1» de son système de conduite autonome, ce qui signifie que la conduite autonome future peut être très différente des chatbots actuels ou des générateurs d'images.
Dans cet article, Waymo a mentionné que les systèmes de conduite autonomes traditionnels développent généralement des «modules» spécifiques pour diverses fonctions, notamment la perception, la cartographie, la prédiction et la planification. Bien que cette approche ait fait des progrès au cours des dernières années, ses limites sont également évidentes, en particulier lorsqu'elles traitent des environnements nouveaux et complexes. Waymo estime que les MLLM comme les Gémeaux peuvent résoudre ces problèmes car ils ont une «connaissance mondiale» approfondie et sont capables d'effectuer un «raisonnement de pensée en chaîne» pour simuler le raisonnement logique humain.
Le modèle EMMA a été développé pour aider les taxis autonomes de Waymo à naviguer dans des environnements complexes. Par exemple, lors de la rencontre de situations telles que des animaux ou de la construction de routes, Emma peut aider les voitures sans conducteur à trouver le meilleur chemin de conduite. Cependant, Waymo a également réalisé qu'Emma a certaines limites, telles que l'incapacité actuelle pour traiter les entrées du capteur 3D de LiDAR ou radar.
Les recherches de Waymo dans ce domaine nécessitent une profondeur supplémentaire, mais ils espèrent que cette réalisation inspirera davantage de recherches pour résoudre les problèmes actuels et promouvoir le développement de la technologie de conduite autonome.
Points clés:
Waymo utilise le modèle Gemini de Google pour développer un nouveau système de formation en taxi autonome, Emma, pour améliorer les capacités de prise de décision.
Le modèle EMMA est capable de traiter les données de capteurs complexes, aidant les véhicules sans conducteur à éviter intelligemment les obstacles.
Alors qu'Emma a un potentiel, Waymo reconnaît que des recherches supplémentaires sont encore nécessaires pour surmonter ses limites existantes.
Le modèle Emma de Waymo représente un saut significatif dans la technologie de conduite autonome, qui exploite des modèles de grandes langues pour traiter les données multimodales pour ouvrir la voie à des systèmes de conduite autonomes plus sûrs et plus intelligents à l'avenir. Bien que les défis restent, cette étude apporte sans aucun doute un nouvel espoir pour le développement futur du domaine de la conduite autonome.