El editor de Downcodes conoció que Waymo anunció recientemente un desarrollo importante: el desarrollo de un nuevo modelo de capacitación EMMA basado en el modelo multimodal de lenguaje grande (MLLM) Gemini de Google para el desarrollo de taxis autónomos. EMMA puede procesar datos de sensores, generar la trayectoria futura de vehículos autónomos y ayudar en la toma de decisiones de los vehículos en la planificación de rutas y la evitación de obstáculos. Este avance marca la primera aplicación importante de MLLM en el campo de la conducción autónoma e indica que los escenarios de aplicación de LLM se expandirán desde robots de chat, gestión de correo electrónico, etc. hasta nuevos entornos viales.
El modelo EMMA es una de las primeras señales de que los líderes en conducción autónoma planean utilizar MLLM en sus operaciones, lo que demuestra que estos LLM pueden ir más allá de sus usos actuales como chatbots, administradores de correo electrónico y generadores de imágenes y encontrar su camino hacia un entorno completamente nuevo. de la carretera. Encuentra la aplicación.
El equipo de investigación de Waymo dice que los MLLM como Gemini ofrecen soluciones interesantes para sistemas de conducción autónoma por dos razones: el chatbot es un "generalista" capacitado con grandes cantidades de datos extraídos de Internet y "puede proporcionar información más allá del "rico conocimiento mundial" del contenido contenido en registros de conducción ordinarios"; demuestran capacidades de razonamiento "excelentes" a través de técnicas como el "razonamiento en cadena de pensamiento", que imita el razonamiento humano al dividir tareas complejas en una serie de pasos lógicos.
El modelo EMMA de Waymo funciona bien en la predicción de trayectorias, detección de objetos y comprensión de mapas de carreteras, pero también tiene limitaciones, como la incapacidad de integrar la entrada de sensores 3D desde lidar o radar, y la capacidad de procesar solo una pequeña cantidad de fotogramas de imagen a la vez. un tiempo. También existen riesgos al utilizar MLLM para entrenar taxis autónomos. Por ejemplo, el modelo puede tener alucinaciones o no poder completar tareas simples.
. Como resultado, Waymo dice que se necesita más investigación para mitigar estos problemas y desarrollar aún más la arquitectura de modelos de conducción autónoma más avanzada.
Aunque el modelo EMMA de Waymo tiene algunas limitaciones, sus avances tecnológicos en el campo de la conducción autónoma siguen siendo impresionantes. En el futuro, con el continuo desarrollo y mejora de la tecnología, creo que la tecnología de conducción autónoma basada en MLLM nos brindará una experiencia de viaje más segura y conveniente. El editor de Downcodes seguirá prestando atención al progreso de seguimiento de Waymo, ¡así que estad atentos!