Waymo está utilizando el poderoso modelo de lenguaje multimodal de Google Gemini para revolucionar sus métodos de entrenamiento de taxi sin conductor. En el corazón de este avance hay un modelo multimodal de extremo a extremo llamado EMMA, que puede procesar los datos del sensor de manera más eficiente, generando así predicciones más precisas de la trayectoria de conducción futura. Este movimiento no solo mejora la inteligencia y la seguridad del sistema de conducción autónomo de Waymo, sino que también marca un salto importante en la aplicación de modelos de idiomas grandes en el campo de la conducción autónoma, lo que indica que en el futuro, la tecnología de conducción autónoma superará Sea más inteligente, desarrolle en una dirección más independiente.
Recientemente, Waymo ha dado otro paso importante en el campo de la conducción autónoma. La compañía ha visto durante mucho tiempo su colaboración con Google Deepmind como su ventaja competitiva, y ahora está aprovechando el modelo de lenguaje grande de Google, Gemini, para mejorar la capacitación de sus taxis autónomos.
Waymo ha publicado un nuevo trabajo de investigación que introduce un "modelo multimodal de extremo a extremo" llamado EMMA, que puede procesar los datos del sensor para generar la trayectoria de conducción futura de vehículos autónomos. Esto significa que los vehículos sin conductor de Waymo pueden tomar decisiones de manejo de manera más inteligente y efectiva evitar obstáculos.
La importancia de esta nueva tecnología no solo está en su innovación, sino también en su potencial para cambiar el alcance de las aplicaciones de la mayoría de los modelos de idiomas grandes en la actualidad. Waymo quiere ver a MLLM como un "ciudadano de clase 1" de su sistema de manejo autónomo, lo que significa que la conducción autónoma futura puede ser muy diferente de los chatbots o generadores de imágenes actuales.
En este documento, Waymo mencionó que los sistemas de conducción autónomos tradicionales generalmente desarrollan "módulos" específicos para diversas funciones, incluida la percepción, el mapeo, la predicción y la planificación. Si bien este enfoque ha progresado en los últimos años, sus limitaciones también son obvias, especialmente cuando se trata de entornos nuevos y complejos. Waymo cree que MLLM como Géminis pueden resolver estos problemas porque tienen un amplio "conocimiento mundial" y pueden realizar un "razonamiento de pensamiento en cadena" para simular el razonamiento lógico humano.
El modelo EMMA fue desarrollado para ayudar a los taxis autónomos de Waymo a navegar en entornos complejos. Por ejemplo, al encontrar situaciones como animales o construcción de carreteras, Emma puede ayudar a los autos sin conductor a encontrar la mejor ruta de conducción. Sin embargo, Waymo también se dio cuenta de que Emma tiene algunas limitaciones, como la incapacidad actual de procesar las entradas del sensor 3D desde LIDAR o el radar.
La investigación de Waymo en esta área necesita más profundidad, pero esperan que este logro inspire más investigación para abordar los problemas actuales y promover el desarrollo de la tecnología de conducción autónoma.
Puntos clave:
Waymo está utilizando el modelo Gemini de Google para desarrollar un nuevo sistema de entrenamiento de taxi autónomo, Emma, para mejorar las capacidades de toma de decisiones.
El modelo EMMA puede procesar datos de sensores complejos, ayudando a los vehículos sin conductor a evitar obstáculos de manera inteligente.
Si bien Emma tiene potencial, Waymo reconoce que aún se necesita más investigación para superar sus limitaciones existentes.
El modelo EMMA de Waymo representa un salto significativo en la tecnología de conducción autónoma, lo que aprovecha los modelos de idiomas grandes para procesar datos multimodales para allanar el camino para sistemas de conducción autónomos más seguros e inteligentes en el futuro. Aunque quedan desafíos, este estudio sin duda trae una nueva esperanza para el desarrollo futuro del campo de la conducción autónoma.