L'éditeur de Downcodes a appris que Waymo avait récemment annoncé une évolution majeure : le développement d'un nouveau modèle de formation EMMA basé sur le modèle multimodal de langage large (MLLM) Gemini de Google pour le développement de taxis autonomes. EMMA peut traiter les données des capteurs, générer la trajectoire future des véhicules autonomes et aider la prise de décision du véhicule dans la planification du trajet et l'évitement des obstacles. Cette avancée marque la première application importante du MLLM dans le domaine de la conduite autonome et indique que les scénarios d'application du LLM s'étendront des robots de chat, de la gestion des e-mails, etc. à de nouveaux environnements routiers.
Le modèle EMMA est l'un des premiers signes que les leaders de la conduite autonome envisagent d'utiliser les MLLM dans leurs opérations, démontrant que ces LLM peuvent aller au-delà de leurs utilisations actuelles en tant que chatbots, gestionnaires de messagerie et générateurs d'images et trouver leur chemin dans un environnement entièrement nouveau. de la route. Trouvez l'application.
L'équipe de recherche de Waymo affirme que les MLLM comme Gemini offrent des solutions intéressantes pour les systèmes de conduite autonome pour deux raisons : le chatbot est un « généraliste » formé sur de grandes quantités de données récupérées sur Internet et « peut fournir des informations au-delà de la « riche « connaissance mondiale » du contenus contenus dans des carnets de conduite ordinaires » ; ils démontrent d'« excellentes » capacités de raisonnement grâce à des techniques telles que le « raisonnement en chaîne de pensée », qui imite le raisonnement humain en décomposant des tâches complexes en une série d'étapes logiques.
Le modèle EMMA de Waymo fonctionne bien en matière de prédiction de trajectoire, de détection d'objets et de compréhension de feuilles de route, mais il présente également des limites, telles que l'incapacité d'intégrer les entrées de capteurs 3D provenant du lidar ou du radar, et la capacité de traiter uniquement un petit nombre d'images à la fois. un temps. Il existe également des risques à utiliser MLLM pour former des taxis autonomes. Par exemple, le modèle peut avoir des hallucinations ou être incapable d'accomplir des tâches simples.
. En conséquence, Waymo affirme que des recherches supplémentaires sont nécessaires pour atténuer ces problèmes et développer davantage l’état de l’art en matière d’architecture de modèle de conduite autonome.
Même si le modèle EMMA de Waymo présente certaines limites, ses avancées technologiques dans le domaine de la conduite autonome restent impressionnantes. À l'avenir, avec le développement et l'amélioration continus de la technologie, je pense que la technologie de conduite autonome basée sur MLLM nous apportera une expérience de voyage plus sûre et plus pratique. L’éditeur de Downcodes continuera de prêter attention aux progrès de suivi de Waymo, alors restez à l’écoute !