在AI圈裡,圖靈獎得主Yann Lecun是典型的異類。
當眾多技術專家堅信,沿著當前的技術路線,agi的實現只是時間問題時,Yann Lecun卻一再提出異議。
在與同行的激烈辯論中,他不只一次表示,當前主流的技術路徑無法引領我們走向AGI,甚至現在AI的水平還不如一隻貓。
而圖靈獎得主、Meta首席AI科學家、紐約大學教授等等,這些耀眼的頭銜以及沉甸甸的一線實踐經驗,卻也讓我們誰也無法忽視這位AI專家的見解。
那麼,Yann LeCun對於AI的未來究竟有何看法呢?在最近一次公開演講中,他也再次詳細闡述了自己的觀點:僅僅依靠文字訓練,AI永遠無法達到接近人類層面的智慧。
部分觀點如下:
1. 未來,人們將普遍佩戴智慧眼鏡或其他類型的智慧型設備,這些設備將內建助理系統,形成個人的智慧虛擬團隊,以提高個人的創造力和效率。
2. 智慧系統的目的不是為了取代人類,而是為了增強人類的智力,使人們能夠更有效率地工作。
3. 即使是寵物貓,其大腦中的模型也比任何AI系統所能建構的模型複雜。
4. FAIR基本上不再專注於語言模型,而是朝向下一代AI系統的長期目標邁進。
5. 僅僅透過訓練文本數據,AI系統無法達到接近人類層次的智力。
6. Yann Lecun建議放棄生成模型、機率模型、對比學習和強化學習,轉而採用JEPA架構和基於能量的模型,認為這些方法更有可能推動AI的發展。
7. 雖然機器最終會超越人類智力,但它們將受到控制,因為它們是目標驅動的。
有趣的是,演講開始前還發生了一段小插曲。
主持人在介紹LeCun時,稱他為Facebook AI研究院(FAIR)的首席AI科學家。
對此,LeCun在演講開始前澄清,FAIR中的「F」不再代表Facebook,而是「基礎」 (Fundamental)的意思。
以下演講原文由APPSO編譯,有刪減。最後附上原始影片連結: https://www.youtube.com/watch?v=4DsCtgtQlZU
AI對世界的了解不如你的貓
好的,我將談談人類層級的AI,以及說我們如何實現它,以及為何我們不會實現它。
首先,我們確實需要人類層次的AI。
因為未來,有一個是我們大多數人將佩戴智慧眼鏡或其他類型的設備。我們將與這些設備進行對話,而這些系統將承載助手,可能不只一個,可能是一整套助手。
這將導致我們每個人基本上都有一支智慧虛擬團隊在為我們工作。
所以,人人都會成為“老闆”,只是這些“員工”不是真正的人類。我們需要建構這樣的系統,基本上是為了增強人類的智力,使人們更具創造性和更有效率。
但為此,我們需要機器能夠理解世界,能夠記住事物,具備直覺和常識,能夠推理和計劃,達到與人類相同的水平。
儘管你可能聽過一些支持者說,目前的AI系統並不具備這些能力。所以我們需要花時間學習如何建模世界,擁有關於世界運作的心理模型。
事實上,每種動物都有這樣的模型。你的貓一定有一個比任何AI系統所能建造或設計的模型都要複雜的模型。
我們需要的系統應該具有持久記憶的系統,而目前的語言模型(LLM)並沒有,能夠規劃複雜行動序列的系統,而今天的系統無法做到,並且這個系統應該是可控和安全的。
因此,我將提出一個架構,稱為目標驅動的AI。我大約兩年前寫了一篇關於這個的願景論文,並發布了這篇論文。 FAIR的許多人正在努力實現這個計畫。
FAIR過去研究過更多應用項目,但Meta在一年半前創建了一個名為生成式AI (Gen AI)的產品部門,專注於AI產品。
他們進行應用研發,因此現在FAIR已經被重新引導,朝向下一代AI系統的長期目標。我們基本上不再專注於語言模型。
包括大型語言模型(LLM)在內的AI成功,尤其是過去5、6年中取得的許多其他系統的成功,依賴一系列技術,當然,包括自監督學習。
自監督學習的核心在於訓練一個系統,不是針對任何特定任務,而是盡量以良好的方式表示輸入資料。實現這一點的一種方法是透過損壞再重建來恢復。
因此,你可以取一段文本,通過去掉一些單字或改變其他單字來破壞它。這個過程可以用於文字、DNA序列、蛋白質或其他任何內容,甚至在某種程度上也可以用於圖像。然後你訓練一個龐大的神經網路來重建完整的輸入,也就是未被破壞的版本。
這是一個生成模型,因為它試圖重建原始訊號。
所以,紅色框框就像一個代價函數,對吧?它計算輸入Y和重建後的輸出y之間的距離,而這就是學習過程中要最小化的參數。在這個過程中,系統學習到了輸入的內部表示,可以用於各種後續任務。
當然,這可以用於預測文本中的單詞,這就是自回歸預測(autoregressive prediction)所做的事情。
語言模型是這一點的特例,其中架構的設計方式是為了預測一個項目、一個token或一個單字時,只能查看其左側的其他token。
它不能查看未來。如果你正確訓練一個系統,給它展示文本,並要求它預測文本中的下一個單字或下一個token,那麼你可以使用該系統來預測下一個單字。然後你將那個下一個單字加入輸入中,再預測第二個單詞,並將其加入輸入中,預測第三個單字。
這就是自回歸預測(autoregressive prediction) 。
這是LLMs所做的事情,這並不是一個新概念,自香農(Shannon)時代以來就存在了,可以追溯到50年代,這已經很久了,但變化在於我們現在擁有那些龐大的神經網路架構,可以在大量資料上進行訓練,看起來會從中湧現出一些特性。
但這種自迴歸預測有一些主要的局限性,在通常意義上這裡並沒有真正的推理存在。
還有另一個限制是,這僅適用於以離散物件、符號、token、單字等形式出現的數據,基本上是可以離散化的東西。
我們在達到人類水平智力方面仍然缺少一些重要的東西。
我在這裡並不一定是在談論人類層面的智力,但即使是你的貓或狗也能完成一些當前AI系統無法企及的驚人壯舉。
任何10歲的小孩都可以一次學會清理餐桌並填滿洗碗機,對吧?根本不需要練習之類的,對吧?
17歲的人學會開車大約需要20小時的練習。
我們仍然沒有L5級自動駕駛汽車,當然也沒有能夠清理餐桌和填滿洗碗機的家用機器人。
僅僅透過訓練文本,AI永遠無法達到接近人類層次的智力
所以我們真的缺少一些重要的東西,否則我們將能夠用AI系統完成這些事情。
我們不斷碰到一個叫做莫拉維克悖論(moravec's Paradox)的東西,即對我們而言看似微不足道、甚至不被認為是智能的事情,實際上用機器完成起來卻非常困難,而像操縱語言這樣的高階複雜抽象思維,似乎對機器來說卻很簡單,像下棋、圍棋之類的事情也是如此。
也許其中一個原因是這樣的。
一個大型語言模型(LLM)通常是在20兆個token上進行訓練的。
一個token基本上是一個單字的四分之三,平均來說。因此,這裡總共是1.5×10的13次方個字。每個token大約是3B,通常,這樣就需要6×10的13次方個位元組。
對我們任何一個人來說,讀完這些內容大約需要幾十萬年的時間,對吧?這基本上是網路上所有公開文字的總和。
但考慮一個孩子,一個四歲的孩子總共清醒了16000小時。我們有200萬個視神經纖維進入我們的大腦。每根神經纖維大約以每秒1B的速度傳輸數據,也許是每秒半個位元組。有些估計說這可能是每秒3B。
這沒關係,反正是一個數量級。
這個資料量大約是10的14次方個位元組,差不多與LLM的數量級相當。因此,在四年內,一個四歲孩子看到的視覺資料與最大的語言模型在整個網路上公開可用的文字上訓練的資料量一樣多。
以數據作為起點,這告訴我們幾個事情。
首先,這告訴我們,僅僅透過訓練文本,我們永遠無法達到接近人類層次的智力。這是根本不可能發生的事。
其次,視覺訊息是非常冗餘的,每根視神經纖維每秒鐘傳送1B的訊息,這已經比你視網膜中的光感受器壓縮了100比1。
我們視網膜中大約有6000萬到1億個光感受器。這些光感受器經由視網膜前的神經元壓縮為100萬個神經纖維。因此,已經存在100比1的壓縮。然後到達大腦時,訊息被擴展了大約50倍。
因此,我測量的是壓縮訊息,但它仍然非常冗餘。而冗餘其實是自監督學習所需要的。自監督學習只會從冗餘資料中學習到有用的東西,如果資料高度壓縮,這意味著資料變成了隨機雜訊的,那麼你就無法學習任何東西。
你需要冗餘才能學習到任何東西。你需要學習資料的潛在結構。因此,我們需要訓練系統,透過觀看影片或在現實世界中生活來學習常識和物理知識。
我說話的順序可能會有些混亂,我主要想告訴你這個目標驅動的人工智慧架構到底是什麼。它與LLM或前饋神經元有很大不同,因為推理過程不僅僅是通過神經網路的一系列層,而實際上是運行優化演算法。
從概念上來看,它看起來是這樣的。
一種前饋過程是觀察結果透過感知系統運作的過程。例如,如果你有一系列的神經網路層並產生一個輸出,那麼對於任何單一輸入,你只能有一個輸出,但在許多情況下,對於一個感知,可能會有多個可能的輸出解釋。你需要一種不僅僅計算功能,而是能夠為單一輸入提供多個輸出的映射過程。實現這一點的唯一方法是透過隱函數。
基本上,這個目標框架右側的紅色框表示一個函數,它基本上測量輸入與其提議輸出之間的兼容性,然後透過找到最與輸入相容的輸出值來計算輸出。你可以想像這個目標是某種能量函數,你是在以輸出為變數最小化這個能量。
你可能會有多個解決方案,並且你可能有某種方法來處理這些多個解決方案。人類的感知系統確實如此,如果你對特定的感知有多個解釋,你的大腦會自發性地在這些解釋之間循環。因此,有一些證據表明,這種類型的事情確實會發生。
但讓我回到架構上來。因此,利用這種透過優化推理的原則。如果你願意,關於人類思考方式的假設如下。你在世界中作出觀察。感知系統給你提供了世界當前狀態的概念。但當然,它只給你提供了你目前能夠感知的世界狀態的概念。
你可能對世界其餘部分的狀態有一些記憶中的想法。這可能與記憶的內容結合在一起,並被輸入到世界模型中。
什麼是模型?世界模型是你對世界行為的心理模型,因此你可以想像你可能採取的一系列行動,而你的世界模型將允許你預測這些行動序列對世界的影響。
因此,綠色框表示世界模型,你將假設的一系列行動輸入其中,它預測世界的最終狀態將是什麼,或者你預測在世界中將要發生的整個軌跡。
你將其與一組目標函數結合。一個目標是測量目標實現的程度,任務是否完成,也許還有一組其他目標,作為安全邊界,基本上測量所遵循的軌跡或採取的行動在多大程度上對機器人或機器周圍的人沒有危險,等等。
因此,現在的推理過程(我還沒有談論學習)只是推理,包括尋找最小化這些目標的行動序列,找到最小化這些目標的一系列行動。這就是推理過程。
因此,這不僅僅是前饋過程。你可以透過搜尋離散選項來完成這一點,但這並不高效。更好的方法是確保所有這些框都是可微分的,你可以對它們進行反向傳播梯度,然後透過梯度下降更新行動序列。
現在,這個想法其實並不新鮮,已經存在超過60年,甚至更久了。首先,讓我談談使用世界模型進行這種推理的優點。優勢在於,你可以在不需要任何學習的情況下完成新任務。
我們時常這樣做。當我們面臨新情況時,我們會考慮它,想像我們行動的後果,然後採取將實現目標(無論是什麼)的行動序列,我們不需要學習來完成該任務,我們可以進行規劃。因此,這基本上是規劃。
你可以將大多數推理形式歸結為最佳化。因此,透過優化進行推理的過程本質上比僅僅通過神經網路的多層運行更強大。正如我所說,這種透過優化進行推理的想法已經存在超過60年。
在最佳化控制理論領域,這稱為模型預測控制。
你有一個要控制的系統模型,像是火箭、飛機或機器人。你可以想像,利用你的世界模型計算一系列控制指令的效果。
然後你優化這個序列,讓運動達到你想要的結果。所有經典機器人學的運動規劃都是透過這種方式完成的,這並不是新事物。這裡的新意在於,我們將學習世界模型,感知系統將提取出適當的抽象表示。
現在,在我進入一個例子之前,說明如何運行這個系統,你可以建立一個整體的AI系統,包含所有這些元件:世界模型、可以針對手邊任務配置的成本函數、最佳化模組(即真正優化、尋找給定世界模型的最佳動作序列的模組) 、短期記憶、感知系統等等。
那麼,這樣是如何運作的呢?如果你的動作不是單一動作,而是動作序列,而你的世界模型其實是一個系統,它告訴你,在時間T的世界狀態和可能採取的行動下,預測時間T+1的世界狀態。
你想預測在這種情況下兩個動作的序列會產生什麼效果。你可以多次運行你的世界模型來實現這一點。
取得初始世界狀態表示,輸入對行動零的假設,利用模型預測下一狀態,然後進行行動一,計算下一狀態,計算成本,然後透過反向傳播和基於梯度的最佳化方法,找出將最小化成本的兩個動作。這就是模型預測控制。
現在,世界並不是完全確定的,因此你必須使用潛在變數來擬合你的世界模型。潛變量基本上是可以在一組數據中切換或從分佈中抽取的變量,它們代表世界模型在與觀察相容的多個預測之間的切換。
更有趣的是,智慧系統目前還無法去做人類乃至動物能做到的事情,那就是分層規劃。
例如,如果你在計劃從紐約到巴黎的旅行,你可以使用你對世界、對身體的理解,可能還有你對從這裡到巴黎整個配置的想法,以你的低級肌肉控制來規劃你的整個旅行。
對吧?如果每十毫秒的肌肉控制步驟數量,所有這些你在去巴黎之前必須做的事情疊加起來,簡直是巨大的數字。因此,你所做的就是以分層規劃的方式進行規劃,你從很高的層面開始說,好吧,要去巴黎,我首先需要去機場,搭乘飛機。
我如何去機場?假設我在紐約市,我必須下樓去叫計程車。我怎麼下樓?我必須先從椅子上起來,打開門,走到電梯,按下按鈕,等等。我該如何從椅子上站起來?
在某個時刻,你將不得不將事情表達為低階肌肉控制動作,但我們並不是以低階的方式規劃整個過程,而是在進行分層規劃。
如何使用AI系統做到這一點仍然是完全未解決的,我們對此毫無頭緒。
這似乎是智能行為的一個重要要求。
那麼,我們要如何學習能夠進行層級規劃的世界模型,能夠在不同抽象層次上運作呢?沒有人展示出任何接近這一點的成果。這是一個重大挑戰。圖像顯示我剛剛提到的例子。
那麼,我們現在要如何訓練這個世界模型呢?因為這確實是一個大問題。
我嘗試弄清楚嬰兒在什麼年齡學習關於世界的基本概念。他們如何學習直覺的物理學、物理直覺,以及所有這些內容?這些發生在他們開始學習語言和互動等事情之前很久。
因此,諸如面孔追蹤之類的能力實際上發生得非常早。生物運動,即有生命的物體與無生命物體之間的區別,也會很早就出現。物體恆常性也是如此,指的是當一個物體被另一個物體遮擋時,它依然存在這一事實。
而嬰兒是很自然地學習的,你不需要給他們事物的名稱。他們會知道椅子、桌子和貓是不同的。而關於穩定性和支持性等概念,例如像重力、慣性、守恆、動量這些實際上大約在九個月大時才會出現。
這需要很長時間。因此,如果你向六個月大的嬰兒展示左邊的情境,即小車在平台上,你將它推下平台,它似乎在空中漂浮。六個月大的嬰兒會注意到這一點,而十個月大的嬰兒則會覺得這不應該發生,物體應該會掉落。
當發生意外情況時,這意味著你的「世界模型」是錯誤的。所以你會關注,因為這可能會要了你的命。
因此,這裡需要發生的學習類型與我們之前討論的學習類型非常相似。
取得輸入,以某種方式破壞它,並訓練一個大型神經網路來預測缺失的部分。如果你訓練一個系統來預測影片中將要發生的事情,就像我們訓練神經網路預測文本中將要發生的事情一樣,也許這些系統將能夠學習常識。
不幸的是,我們已經嘗試了這個十年了,結果完全失敗。我們從來沒有接近過能夠透過僅僅試圖預測影片中的像素來真正學習任何通用知識的系統。
你可以訓練一個系統來預測看起來不錯的影片。現在有許多視訊生成系統的例子,但它們內部並不是良好的物理世界模型。我們不能用它們來做這件事。
好吧,所以我們將使用生成模型來預測個體將要發生的事情的想法,系統會神奇地理解世界的結構,這完全是失敗的。
在過去的十年裡,我們嘗試了許多方法。
之所以失敗,是因為有許多可能的未來。在像文字這樣的離散空間中,你可以預測哪個單字會跟在一串單字之後,你可以產生字典中可能單字的機率分佈。但當涉及到視訊幀時,我們沒有好的方法來表示視訊幀的機率分佈。實際上,這個任務完全不可能。
例如,我拍攝這個房間的視頻,對吧?我拿著相機拍攝那部分,然後停止影片。我問系統接下來會發生什麼事。它可能會預測剩下的房間。會有一面牆,會有人坐著,密度可能會和左邊的相似,但絕對不可能在像素級別上準確預測你們每個人的樣子、世界的紋理以及房間的精確大小等所有細節。
所以,我提出的解決方案是聯合嵌入預測架構(JEPA) 。
其理念就是放棄預測像素,而是學習一個對世界運作的抽象表示,然後在這個表示空間中進行預測。這就是架構,聯合嵌入預測架構。這兩個嵌入分別取X (損壞版本)和Y,經過編碼器處理,然後訓練系統根據X的表示預測Y的表示。
現在的問題是,如果只是用梯度下降、反向傳播來最小化預測誤差來訓練這樣的系統,它將崩潰。它可能會學習一個常數表示,這樣預測就變得非常簡單,但卻沒有資訊量。
因此,我希望你記住的是,生成架構試圖重建預測的自編碼器、生成架構、掩碼自編碼器等,與在表示空間中進行預測的聯合嵌入架構之間的差異。
我認為未來在於這些聯合嵌入架構,我們有大量的經驗證據表明,學習良好的影像表示的最佳方法是使用聯合編輯架構。
所有嘗試透過重建來學習影像表示的嘗試都很糟糕,效果不好,儘管有許多大型專案聲稱它們有效,但實際上並不行,最佳效能是透過右邊的架構獲得的。
現在,如果你仔細想想,這實際上就是我們智力的表現:尋找某種現象的良好表示,以便能夠進行預測,這真的就是科學的本質。
真的。想想看,如果你想預測一個行星的軌跡,行星是一個非常複雜的物體,它巨大,具有天氣、溫度和密度等各種特徵。
雖然它是一個複雜的對象,但要預測行星的軌跡,你只需要知道6個數字:3個位置座標和3個速度向量,僅此而已,你不需要做其他任何事情。這是一個非常重要的例子,真正展示了預測能力的本質在於找到我們觀察事物的良好表示。
那麼,我們要如何訓練這樣一個系統呢?
所以你想要防止系統崩潰。做到這一點的一種方法是使用某種代價函數,測量編碼器輸出的表示的訊息內容,並儘量最大化訊息內容,最小化負訊息。你的訓練系統要同時盡可能提取輸入中的信息,同時最小化在該表示空間中的預測誤差。
系統將找到提取盡可能多的信息與不提取不可預測資訊之間的某種權衡。你將得到一個好的表示空間,在這個空間中可以進行預測。
現在,你如何測量資訊?這就是事情變得有點奇怪的地方。我將跳過這一點。
機器將會超越人類智力,且安全可控
實際上,有一種方法可以透過訓練、基於能量的模型和能量函數從數學上理解這一點,但我沒有時間深入探討。
基本上,我在這裡告訴你幾件不同的事情:放棄生成模型,轉而使用那些JEPA架構;放棄機率模型,轉而使用那些基於能量的模型,放棄對比學習方法,還有強化學習。這些我已經說了10年了。
而這些都是今天機器學習中最受歡迎的四個支柱。因此目前我可能不太受歡迎。
一種方法是估計資訊量,測量來自編碼器的資訊內容。
目前有六種不同的方法來實現這一點。實際上,這裡有一個叫做MCR的方法,來自我在NYU的同事,那就是防止系統崩潰並產生常數。
取出來自編碼器的變量,並確保這些變數具有非零的標準差。你可以將其放入成本函數中,確保權重被搜索,變數不會崩潰並變成常數。這是比較簡單的。
現在的問題是,系統可能會“作弊”,使所有變數相等或高度相關。因此,你需要再增加一個項,要求最小化這些變數的協方差矩陣的非對角線項,以確保它們相關。
當然,這還不夠,因為變數仍可能依賴,但不相關。因此,我們採用另一種方法,將SX的維度擴展到更高的維度空間VX,並在該空間中應用方差協方差正規化,以確保滿足要求。
這裡還有一個技巧,因為我所最大化的是資訊內容的上限。我希望實際的資訊內容能跟隨我對上限的最大化。我需要的是一個下限,這樣它會推動下限,資訊也會隨之增加。不幸的是,我們並沒有資訊的下限,或者至少我們不知道如何計算它們。
有第二套方法,稱為“蒸餾風格方法”。
這種方法以神秘的方式運作。如果你想清楚了解誰在做什麼,你應該問坐在這裡的Grill。
他在這方面有一篇個人論文,定義得很好。它的核心思想是只更新模型的一部分,而在另一部分不進行梯度的反向傳播,並透過有趣的方式共享權重。關於這方面也有很多論文。
如果你想訓練一個完全自監督的系統,以產生良好的圖像表示,這種方法效果很好。影像的破壞是透過遮蔽進行的,最近的一些工作是我們為影片所做的,這樣我們就可以訓練一個系統來提取良好的影片表示,以便用於下游任務,如動作識別影片等。你可以看到,給一個視頻掩蔽掉一大塊,透過這個過程進行預測,在表示空間中使用這種蒸餾技巧來防止崩潰。這效果很好。
因此,如果我們在這個專案中成功,並最終得到能夠推理、計劃和理解物理世界的系統,未來我們所有的互動將會是這樣的。
這將需要數年,甚至可能是十年才能讓一切正常運作。馬克·祖克柏一直在問我需要多長時間。如果我們成功做到這一點,好的,我們將擁有一個能夠調解我們與數位世界所有互動的系統。它們將回答我們所有的問題。
它們將在很多時候與我們同在,基本上將構成所有人類知識的一個庫。這感覺像是一個基礎設施的東西,就像網路一樣。這並不像是一個產品,而更像是一種基礎設施。
這些人工智慧平台必須是開源的。 IBM和Meta參與了一個名為人工智慧聯盟的組織,促進開源人工智慧平台。我們需要這些平台是開源的,因為我們需要這些人工智慧系統的多樣性。
我們需要它們來理解世界上所有的語言、所有的文化、所有的價值體系,而你不會只從由美國西岸或東岸的公司所生產的單一系統中獲得這些。這必須是來自全世界的貢獻。
當然,訓練金融模型的成本非常高,因此只有少數公司能夠做到這一點。如果像Meta這樣的公司能夠提供開源的基礎模型,那麼全世界都可以為自己的目的進行微調。這是Meta和IBM所採用的哲學。
因此,開源人工智慧不僅僅是一個好主意,它對於文化多樣性,甚至可能對於民主的保存都是必要的。
訓練和微調將透過眾包進行,或由新創公司和其他公司的生態系統完成。
這正是推動人工智慧新創生態系統發展的原因之一,就是這些開源人工智慧模型的可用性。達到通用人工智慧需要多長時間?我不知道,可能要數年到數十年。
這過程中有很大的變化,還有許多問題需要解決。這幾乎肯定比我們想像的要困難得多。這不會在一天內發生,而是逐步的、漸進的演變。
所以並不是說某一天我們會發現通用人工智慧的秘密,啟動機器後立刻擁有超智能,而我們都會被超智能所消滅,不,情況並不是這樣的。
機器將會超越人類智力,但它們將處於控制之下,因為它們是目標驅動的。我們給它們設定目標,它們就會完成這些目標。就像我們這裡的許多人都是業界或學術界的領導者。
我們與比我們聰明的人合作,我當然也是。有很多人比我聰明,並不意味著他們想要主宰或接管,這就是事情的真相。當然這背後確實也有風險,但我會把這留給後面的討論,非常感謝。