Waymo 正在利用谷歌強大的多模態大型語言模型Gemini,革新其自動駕駛出租車的訓練方式。這一突破性進展的核心是名為EMMA 的端到端多模態模型,它能夠更有效地處理傳感器數據,從而生成更精準的未來行駛軌跡預測。此舉不僅提升了Waymo 自動駕駛系統的智能化程度和安全性,也標誌著大型語言模型在自動駕駛領域應用的重大飛躍,預示著未來自動駕駛技術將超越傳統的模塊化設計,朝著更智能、更自主的方向發展。
最近,Waymo 在自動駕駛領域又邁出了重要一步。這家公司一直以來都把與穀歌DeepMind 的合作視作自己的競爭優勢,如今,他們正在利用谷歌的多模態大型語言模型Gemini 來提升其自動駕駛出租車的訓練效果。
Waymo 發布了一篇新的研究論文,介紹了一種名為EMMA 的“端到端多模態模型”,該模型能夠處理傳感器數據,從而生成自動駕駛汽車的未來行駛軌跡。這意味著Waymo 的無人駕駛車輛可以更智能地做出行駛決策,並能有效地避開障礙物。
這項新技術的重要性不僅在於它的創新,還因為它可能改變目前大多數大型語言模型的應用範圍。 Waymo 希望將MLLM 視為其自動駕駛系統的“一級公民”,這代表著未來的自動駕駛可能會與當前的聊天機器人或圖像生成器有很大的不同。
在這篇論文中,Waymo 提到,傳統的自動駕駛系統通常會為各種功能開發特定的“模塊”,包括感知、映射、預測和規劃等。雖然這種方法在過去幾年內取得了一些進展,但它的局限性也顯而易見,尤其是在應對新的複雜環境時。 Waymo 認為,像Gemini 這樣的MLLM 可以解決這些問題,因為它們具備廣泛的“世界知識”,並且能夠進行“鍊式思維推理”,模擬人類的邏輯推理。
EMMA 模型被開發出來是為了幫助Waymo 的自動駕駛出租車在復雜環境中進行導航。比如,當遇到動物或道路施工等情況時,EMMA 能夠幫助無人駕駛汽車找到最佳行駛路徑。不過,Waymo 也意識到EMMA 還有一些局限性,例如目前無法處理來自激光雷達或雷達的3D 傳感器輸入。
Waymo 在這方面的研究還需要進一步深入,但他們希望這項成果能激勵更多的研究,以應對目前存在的問題,推動自動駕駛技術的發展。
劃重點:
Waymo 正在利用谷歌的Gemini 模型開發新的自動駕駛出租車訓練系統EMMA,提升決策能力。
EMMA 模型能夠處理複雜的傳感器數據,幫助無人駕駛車輛智能避開障礙物。
雖然EMMA 有潛力,但Waymo 承認仍需進一步研究以克服其現有局限性。
Waymo 的EMMA 模型代表了自動駕駛技術的一次重大飛躍,其利用大型語言模型處理多模態數據的能力,為未來更安全、更智能的自動駕駛系統鋪平了道路。儘管仍面臨挑戰,但這項研究無疑為自動駕駛領域的未來發展帶來了新的希望。