Waymo 近日宣布了一項重大突破,開發了一種基於谷歌多模態大型語言模型(MLLM) Gemini 的新訓練模型,用於其自動駕駛出租車的開發。這種新模型被稱為EMMA(自動駕駛端到端多模態模型),它能夠處理傳感器數據以生成自動駕駛汽車的未來軌跡,幫助無人駕駛汽車決定去哪里以及如何避開障礙物。
EMMA 模型是自動駕駛領域的領軍企業計劃在其運營中使用MLLM 的首批跡象之一,表明這些LLM 可以擺脫目前作為聊天機器人、電子郵件管理器和圖像生成器的用途,並在道路的全新環境中找到應用。
Waymo 的研究團隊表示,像Gemini 這樣的MLLM 為自動駕駛系統提供了有趣的解決方案,原因有二:聊天機器人是一個“通才”,經過從互聯網上抓取的大量數據的訓練,“可以提供超出普通駕駛日誌所包含內容的豐富'世界知識'”;它們通過“思路鏈推理”等技術展示了“卓越”的推理能力,通過將復雜任務分解為一系列邏輯步驟來模仿人類的推理。
Waymo 的EMMA 模型在軌跡預測、物體檢測和路圖理解方面表現出色,但也存在局限性,例如無法整合來自激光雷達或雷達的3D 傳感器輸入,且每次只能處理少量圖像幀。使用MLLM 訓練自動駕駛出租車也存在風險,例如模型可能會出現幻覺或無法完成簡單任務
。因此,Waymo 表示還需要進行進一步的研究來緩解這些問題並進一步發展自動駕駛模型架構的最新技術。
Waymo 的這一突破展示了自動駕駛技術的未來發展方向,為行業帶來了新的希望和挑戰。