Downcodes小編獲悉,Waymo近日宣布了一項重大進展:開發出基於谷歌多模態大型語言模型(MLLM) Gemini的新訓練模型EMMA,用於自動駕駛出租車的研發。 EMMA能夠處理感測器數據,產生自動駕駛汽車的未來軌跡,輔助車輛決策路徑規劃及避障。這項突破標誌著MLLM在自動駕駛領域的首次重要應用,預示著LLM的應用場景將從聊天機器人、郵件管理等拓展至全新的道路環境。
EMMA 模型是自動駕駛領域的領導企業計劃在其營運中使用MLLM 的首批跡象之一,表明這些LLM 可以擺脫目前作為聊天機器人、電子郵件管理器和圖像生成器的用途,並在道路的全新環境中找到應用。
Waymo 的研究團隊表示,像Gemini 這樣的MLLM 為自動駕駛系統提供了有趣的解決方案,原因有二:聊天機器人是一個“通才”,經過從互聯網上抓取的大量數據的訓練,“可以提供超出普通駕駛日誌所包含內容的豐富'世界知識'”;它們透過「思路鏈推理」等技術展示了「卓越」的推理能力,透過將複雜任務分解為一系列邏輯步驟來模仿人類的推理。
Waymo 的EMMA 模型在軌跡預測、物體偵測和路圖理解方面表現出色,但也有其局限性,例如無法整合雷射雷達或雷達的3D 感測器輸入,且每次只能處理少量影像幀。使用MLLM 訓練自動駕駛計程車也存在風險,例如模型可能會出現幻覺或無法完成簡單任務
。因此,Waymo 表示還需要進行進一步的研究來緩解這些問題並進一步發展自動駕駛模型架構的最新技術。
Waymo 的EMMA 車型雖然有一些局限性,但在自動駕駛領域的技術突破依然令人矚目。未來,隨著技術的不斷發展和完善,相信基於MLLM 的自動駕駛技術將為我們帶來更安全、更方便的出行體驗。 Downcodes小編將持續關注Waymo 的後續進展,敬請期待!