OpenAI 最新發布的AI模型「o1-preview」(先前代號「草莓」)引發熱議。 OpenAI宣稱其能力不亞於博士生,但在實際測驗中卻表現出令人失望的諸多錯誤。 Downcodes小編將帶您深入了解這款備受期待卻又問題重重的AI模型,看看它究竟達到了怎樣的水平,以及用戶們對其的真實反饋。
近日,OpenAI 推出了備受期待的AI 模型,此前代號為“草莓”,正式名稱為“o1-preview”。
OpenAI 承諾這款新模型在物理、化學和生物學等難度較高的基準任務上表現不亞於博士生。然而,初步測試的結果顯示,這款AI 離替代人類科學家或程式設計師的目標仍有很大距離。
在社群媒體上,許多用戶分享了他們與「OpenAI o1」 AI 的互動體驗,結果顯示該模型在基本任務上依然表現不佳。
例如,INSA Rennes 的研究員Mathieu Acher 發現,OpenAI o1在解決某些棋類謎題時,經常提出非法的棋步。
而Meta AI 科學家Colin Fraser 則指出,在一個關於農民過河運送羊的簡單文字謎題中,這款AI 竟然放棄了正確答案,轉而給出一些毫無邏輯的胡言亂語。
甚至在OpenAI 用作演示的邏輯謎題中,涉及到草莓的提問也讓用戶獲得了不同的答案,其中一位用戶發現模型的錯誤率高達75%。
不僅如此,部分使用者反映這款新模型甚至在計算字母「R」 在「strawberry」 這個單字中出現的次數時,也常常出錯。
雖然OpenAI 在發佈時表示這是一個早期模型,尚未具備如網頁瀏覽、文件上傳等功能,但這樣的基礎性錯誤仍讓人感到驚訝。
為了改進,OpenAI 在新模型中引入了「思維鏈」 過程,使得OpenAI o1與先前的GPT-4o 模型有了顯著差異。這種方法讓AI 在得出答案前,可以反覆推敲,雖然這也導致其回應時間延長。
有用戶發現,模型竟然花了92秒才給出一個文字謎題的答案,但結果卻依然錯誤。
OpenAI 的研究科學家Noam Brown 對此表示,雖然目前的反應速度較慢,但他們期望未來的版本能進行更長的思考,甚至能在突破性問題上提供新見解。
不過,著名AI 評論家Gary Marcus 對此持懷疑態度,認為長時間的處理並不一定能帶來超越性的推理能力。他強調,儘管AI 技術不斷發展,現實中的研究和實驗仍然不可或缺。
可見,在實際使用中,OpenAI 的這款新AI 模型在各方面的表現仍讓人失望,而這也引發了關於AI 技術未來發展的討論。
劃重點:
近日,OpenAI 推出新AI 模型“草莓”,聲稱在複雜任務上能與博士生相媲美。
許多用戶發現,這款AI 在基本任務上頻頻出錯,例如提出非法棋步和錯誤回答簡單謎題。
? OpenAI 承認模型仍在發展中,但長時間思考未必能提高推理能力,許多基礎問題仍未解決。
總而言之,OpenAI的「o1-preview」模型雖然展現了AI技術發展的潛力,但也暴露出其在實際應用上存在的許多不足。未來,AI模型的發展仍需在技術完善和實際應用之間取得平衡,才能真正實現其預期的目標。 Downcodes小編將持續關注AI領域動態,為大家帶來更多精彩報導。