OpenAI的GPT-5計畫(代號Orion)進展緩慢,引發了業界對大型語言模型未來發展方向的廣泛關注。據報道,儘管GPT-5的表現優於現有模型,但其進步幅度並不足以支撐巨額研發成本。更重要的是,全球資料量的匱乏成為限制GPT-5進一步提升智慧水準的主要瓶頸。本文將深入探討GPT-5計畫面臨的技術挑戰、內部困境以及由此引發的AI發展瓶頸的思考。
備受矚目的GPT-5專案(代號Orion)已研發超過18個月,卻遲遲未能面世。根據《華爾街日報》最新報道,知情人士透露,儘管Orion的表現優於OpenAI現有模型,但其進步幅度尚不足以證明繼續投入巨額成本的合理性。更令人擔憂的是,全球資料量的匱乏,可能正成為GPT-5邁向更高智慧水準的最大障礙。
據稱,GPT-5至少經歷了兩次訓練,每次訓練都暴露出新的問題,未能達到研究人員的預期。每輪訓練耗時數月,光計算成本就高達5億美元。這個計畫能否成功、何時能成功,目前尚不明朗。
訓練之路困難重重:資料瓶頸顯現
自GPT-4於2023年3月發表後,OpenAI便開始著手GPT-5的開發。通常,AI模型的能力會隨著其吸收的資料量增加而增強。訓練過程需要大量數據,耗時數月,並依賴大量昂貴的計算晶片。 OpenAI CEO Altman曾透露,光是訓練GPT-4的成本就超過1億美元,而未來AI模型的訓練費用預計將突破10億美元。
為了降低風險,OpenAI通常會先進行小規模的試運行,以驗證模型的可行性。然而,GPT-5的開發從一開始就遭遇了挑戰。 2023年中期,OpenAI啟動了一項名為「Arrakis」的實驗性訓練,旨在測試GPT-5的新設計。但訓練進展緩慢,且成本高昂,實驗結果顯示GPT-5的開發比原先預期的更加複雜和困難。
因此,OpenAI的研究團隊決定對Orion進行一系列技術調整,並意識到現有的公開網路資料已無法滿足模型的需求。為了提升GPT-5的效能,他們迫切需要更多種類和更高品質的數據。
「從零開始創造數據」:應對資料荒
為了因應數據不足的問題,OpenAI決定「從零開始創造數據」。他們僱用軟體工程師和數學家,編寫新的軟體程式碼或解決數學問題,讓Orion從這些任務中學習。 OpenAI也會讓這些專家解釋他們的工作過程,將人類智慧轉化為機器可學習的知識。
許多研究人員認為,程式碼作為軟體的語言,能夠幫助大模型解決它們從未見過的問題。 Turing公司執行長Jonathan Siddharth表示:“我們是在將人類智慧從人腦轉移到機器腦。”
OpenAI甚至與理論物理學等領域的專家合作,讓他們解釋如何解決各自領域中的難題。然而,這種「從頭開始創造數據」的方式效率並不高。 GPT-4的訓練資料約為13兆個token,即使有1000人每天寫作5000字,也需要數月時間才能生產10億個token。
為了加速訓練,OpenAI也嘗試使用AI產生的「合成資料」。但有研究表明,AI產生的數據再用於AI訓練的回饋循環,有時會導致模型出錯或產生毫無意義的答案。對此,OpenAI科學家認為,使用o1產生的數據可以避免這些問題。
內憂外患:OpenAI面臨多重挑戰
OpenAI不僅面臨技術層面的挑戰,也面臨內部動盪和競爭對手的挖角。同時,來自技術和資金的雙重壓力也在增加。每次訓練耗資高達5億美元,而最終的訓練成本很可能超過10億美元。同時,Anthropic和Google等競爭對手也紛紛推出新一代模型,試圖追趕OpenAI。
人才流失和內部分歧進一步拖慢了開發進度。去年,OpenAI董事會突然解雇了Altman,導致一些研究人員開始質疑公司的未來。雖然Altman很快就被重新任命為CEO,並開始改革公司治理結構,但今年以來,包括聯合創始人兼首席科學家Ilya Sutskever和技術負責人Mira Murati在內的20多位關鍵高管、研究人員和長期員工相繼離職。
隨著Orion計畫進展停滯,OpenAI開始開發其他項目和應用,包括簡化版的GPT-4和AI視訊生成產品Sora。但這導致了不同團隊之間爭奪有限運算資源的局面,特別是新產品開發團隊和Orion研究團隊之間發生了激烈競爭。
AI發展瓶頸?產業面臨深度思考
GPT-5的困境或許揭示了一個更大的行業命題:AI是否已經接近發展的「瓶頸期」?業內人士指出,依靠海量數據和更大模型的策略正逐漸失效。前OpenAI科學家蘇茨克維爾曾表示,“我們只有一個互聯網”,數據的增長正在放緩,而這一推動AI飛躍的“化石燃料”正逐漸枯竭。
對於GPT-5的未來,Altman始終未給予明確的時間表。我們仍然無法確定OpenAI何時或是否會推出一個值得稱為GPT-5的模型。這場關於GPT-5的困境,也引發了人們對AI未來發展方向的深入思考。
GPT-5專案的停滯不前,不僅對OpenAI自身發展造成影響,也為整個AI產業敲響警鐘,提示著單純依靠資料規模和模型大小的路徑可能已走到盡頭,未來AI發展需要探索新的方向和技術突破。