近日,馬斯克在直播中表達了對人工智慧訓練資料枯竭的擔憂,他認為現實世界中用於訓練AI模型的資料已接近耗盡。此觀點與其他AI領域專家的觀點相呼應,引發了業界對未來AI發展模式的思考。馬斯克認為,合成資料將成為解決資料短缺問題的關鍵方案,並指出許多科技公司已開始採用這種方法,這將對AI模型的訓練方式和成本產生深遠影響。
在最近的一次直播對話中,特斯拉和SpaceX 執行長馬斯克表示,現實世界中可用於訓練人工智慧模型的資料已經幾乎耗盡。與他進行對話的是Stagwell 董事會主席馬克・佩恩。馬斯克提到,“我們現在基本上已經消耗掉了所有人類知識的積累…… 用於人工智能訓練的數據。這個現象基本上是去年發生的。”
馬斯克的這一觀點與前OpenAI 首席科學家伊利亞・蘇茨克弗在去年12月的NeurIPS 會議上提出的「資料高峰」 理論相似。蘇茨克弗表示,AI 產業正面臨資料短缺的挑戰,未來缺乏足夠的訓練資料將迫使AI 模型的開發方式改變。
為了解決這個問題,馬斯克認為合成數據將成為可行的替代方案。他指出,唯一可以補充現實世界數據的方式就是透過合成數據,也就是讓人工智慧本身產生訓練數據。馬斯克表示,AI 可以透過自我評估並持續優化自身,藉此提升效能。
目前,許多科技公司如微軟、Meta、OpenAI 和Anthropic 等都開始採用合成資料來訓練其主要的AI 模型。根據Gartner 的預測,到2024年,用於人工智慧和資料分析專案的60% 資料將會是合成生成的。
合成數據的一個顯著優勢是可以顯著降低開發成本。然而,馬斯克和其他專家也指出,合成數據並非沒有風險。研究顯示,合成數據可能導致模型性能下降,輸出結果可能缺乏創新性,並可能受到偏差的影響。如果合成資料本身有局限性,最終模型的輸出結果也會受到這些問題的困擾。
劃重點:
現實世界中可用於訓練AI 的資料幾乎耗盡,馬斯克對此表示擔憂。
合成數據被認為是未來的重要解決方案,許多科技公司已開始採用。
使用合成資料可以大幅降低開發成本,但也存在可能導致模型效能下降的風險。
總而言之,人工智慧訓練資料即將耗盡的問題迫在眉睫,合成資料雖然帶來新的機遇,但也存在挑戰。未來AI發展方向將取決於如何有效利用和改進合成數據,平衡其成本與風險,最終實現AI技術的持續進步。