Downcodes小编获悉,Waymo近日宣布了一项重大进展:开发出基于谷歌多模态大型语言模型(MLLM) Gemini的新训练模型EMMA,用于自动驾驶出租车的研发。EMMA能够处理传感器数据,生成自动驾驶汽车的未来轨迹,辅助车辆决策路径规划及避障。这项突破标志着MLLM在自动驾驶领域的首次重要应用,预示着LLM的应用场景将从聊天机器人、邮件管理等拓展至全新的道路环境。
EMMA 模型是自动驾驶领域的领军企业计划在其运营中使用 MLLM 的首批迹象之一,表明这些 LLM 可以摆脱目前作为聊天机器人、电子邮件管理器和图像生成器的用途,并在道路的全新环境中找到应用。
Waymo 的研究团队表示,像 Gemini 这样的 MLLM 为自动驾驶系统提供了有趣的解决方案,原因有二:聊天机器人是一个“通才”,经过从互联网上抓取的大量数据的训练,“可以提供超出普通驾驶日志所包含内容的丰富‘世界知识’”;它们通过“思路链推理”等技术展示了“卓越”的推理能力,通过将复杂任务分解为一系列逻辑步骤来模仿人类的推理。
Waymo 的 EMMA 模型在轨迹预测、物体检测和路图理解方面表现出色,但也存在局限性,例如无法整合来自激光雷达或雷达的3D 传感器输入,且每次只能处理少量图像帧。使用 MLLM 训练自动驾驶出租车也存在风险,例如模型可能会出现幻觉或无法完成简单任务
。因此,Waymo 表示还需要进行进一步的研究来缓解这些问题并进一步发展自动驾驶模型架构的最新技术。
Waymo 的 EMMA 模型虽然存在一些局限性,但其在自动驾驶领域的技术突破依然令人瞩目。未来,随着技术的不断发展和完善,相信基于 MLLM 的自动驾驶技术将为我们带来更安全、更便捷的出行体验。Downcodes小编将持续关注 Waymo 的后续进展,敬请期待!