Waymo anunció recientemente un gran avance, desarrollando un nuevo modelo de capacitación basado en el Modelo de lenguaje grande (MLLM) multimodal de Google (MLLM) Gemini para su desarrollo de taxis autónomo. Este nuevo modelo, llamado EMMA (modelo multimodal de extremo a extremo para la conducción autónoma), es capaz de procesar los datos del sensor para generar trayectorias futuras para vehículos autónomos, ayudando a los autos sin conductor a decidir dónde ir y cómo evitar obstáculos.
El modelo EMMA es una de las primeras señales de que los líderes en el plan de conducción autónomo para usar MLLM en sus operaciones, lo que sugiere que estos LLM pueden escapar de sus usos actuales como chatbots, gerentes de correo electrónico y generadores de imágenes y en un entorno completamente nuevo en el camino, encuentre el camino, encuentre el camino que el camino encuentre el aplicación en.
El equipo de investigación de Waymo dice que MLLM como Gemini proporciona soluciones interesantes para los sistemas de conducción autónomos por dos razones: los chatbots son un "generalista" que "puede proporcionar más que eso después de ser entrenado en una gran cantidad de datos arrastrados por Internet". Conocimiento 'del contenido contenido en los registros de conducción ordinarios;
El modelo EMMA de Waymo funciona bien en la predicción de la trayectoria, la detección de objetos y la comprensión de la hoja de ruta, pero también tiene limitaciones, como la incapacidad de integrar las entradas del sensor 3D de LiDAR o radar, y solo puede procesar una pequeña cantidad de marcos de imagen a la vez. El uso de MLLM para capacitar a los taxis autónomos también plantea riesgos, como los modelos pueden experimentar alucinaciones o no completar tareas simples
. Por lo tanto, Waymo dijo que se necesita más investigación para aliviar estos problemas y desarrollar aún más las últimas tecnologías en la arquitectura del modelo de conducción autónoma.
El avance de Waymo demuestra la futura dirección de desarrollo de la tecnología de conducción autónoma y trae nuevas esperanzas y desafíos a la industria.