Waymo 正在利用谷歌强大的多模态大型语言模型 Gemini,革新其自动驾驶出租车的训练方式。这一突破性进展的核心是名为 EMMA 的端到端多模态模型,它能够更有效地处理传感器数据,从而生成更精准的未来行驶轨迹预测。此举不仅提升了 Waymo 自动驾驶系统的智能化程度和安全性,也标志着大型语言模型在自动驾驶领域应用的重大飞跃,预示着未来自动驾驶技术将超越传统的模块化设计,朝着更智能、更自主的方向发展。
最近,Waymo 在自动驾驶领域又迈出了重要一步。这家公司一直以来都把与谷歌 DeepMind 的合作视作自己的竞争优势,如今,他们正在利用谷歌的多模态大型语言模型 Gemini 来提升其自动驾驶出租车的训练效果。
Waymo 发布了一篇新的研究论文,介绍了一种名为 EMMA 的 “端到端多模态模型”,该模型能够处理传感器数据,从而生成自动驾驶汽车的未来行驶轨迹。这意味着 Waymo 的无人驾驶车辆可以更智能地做出行驶决策,并能有效地避开障碍物。
这项新技术的重要性不仅在于它的创新,还因为它可能改变目前大多数大型语言模型的应用范围。Waymo 希望将 MLLM 视为其自动驾驶系统的 “一级公民”,这代表着未来的自动驾驶可能会与当前的聊天机器人或图像生成器有很大的不同。
在这篇论文中,Waymo 提到,传统的自动驾驶系统通常会为各种功能开发特定的 “模块”,包括感知、映射、预测和规划等。虽然这种方法在过去几年内取得了一些进展,但它的局限性也显而易见,尤其是在应对新的复杂环境时。Waymo 认为,像 Gemini 这样的 MLLM 可以解决这些问题,因为它们具备广泛的 “世界知识”,并且能够进行 “链式思维推理”,模拟人类的逻辑推理。
EMMA 模型被开发出来是为了帮助 Waymo 的自动驾驶出租车在复杂环境中进行导航。比如,当遇到动物或道路施工等情况时,EMMA 能够帮助无人驾驶汽车找到最佳行驶路径。不过,Waymo 也意识到 EMMA 还有一些局限性,例如目前无法处理来自激光雷达或雷达的3D 传感器输入。
Waymo 在这方面的研究还需要进一步深入,但他们希望这项成果能激励更多的研究,以应对目前存在的问题,推动自动驾驶技术的发展。
划重点:
Waymo 正在利用谷歌的 Gemini 模型开发新的自动驾驶出租车训练系统 EMMA,提升决策能力。
EMMA 模型能够处理复杂的传感器数据,帮助无人驾驶车辆智能避开障碍物。
虽然 EMMA 有潜力,但 Waymo 承认仍需进一步研究以克服其现有局限性。
Waymo 的 EMMA 模型代表了自动驾驶技术的一次重大飞跃,其利用大型语言模型处理多模态数据的能力,为未来更安全、更智能的自动驾驶系统铺平了道路。尽管仍面临挑战,但这项研究无疑为自动驾驶领域的未来发展带来了新的希望。