大失所望！使用者實測OpenAI新模型o1：居然犯各種低階錯誤，連個字母都算錯了

作者：Eve Cole 更新時間：2024-12-02 20:00:01

OpenAI 最新發布的AI模型「o1-preview」（先前代號「草莓」）引發熱議。 OpenAI宣稱其能力不亞於博士生，但在實際測驗中卻表現出令人失望的諸多錯誤。 Downcodes小編將帶您深入了解這款備受期待卻又問題重重的AI模型，看看它究竟達到了怎樣的水平，以及用戶們對其的真實反饋。

近日，OpenAI 推出了備受期待的AI 模型，此前代號為“草莓”，正式名稱為“o1-preview”。

OpenAI 承諾這款新模型在物理、化學和生物學等難度較高的基準任務上表現不亞於博士生。然而，初步測試的結果顯示，這款AI 離替代人類科學家或程式設計師的目標仍有很大距離。

在社群媒體上，許多用戶分享了他們與「OpenAI o1」 AI 的互動體驗，結果顯示該模型在基本任務上依然表現不佳。

例如，INSA Rennes 的研究員Mathieu Acher 發現，OpenAI o1在解決某些棋類謎題時，經常提出非法的棋步。

而Meta AI 科學家Colin Fraser 則指出，在一個關於農民過河運送羊的簡單文字謎題中，這款AI 竟然放棄了正確答案，轉而給出一些毫無邏輯的胡言亂語。

甚至在OpenAI 用作演示的邏輯謎題中，涉及到草莓的提問也讓用戶獲得了不同的答案，其中一位用戶發現模型的錯誤率高達75%。

不僅如此，部分使用者反映這款新模型甚至在計算字母「R」在「strawberry」這個單字中出現的次數時，也常常出錯。

雖然OpenAI 在發佈時表示這是一個早期模型，尚未具備如網頁瀏覽、文件上傳等功能，但這樣的基礎性錯誤仍讓人感到驚訝。

為了改進，OpenAI 在新模型中引入了「思維鏈」過程，使得OpenAI o1與先前的GPT-4o 模型有了顯著差異。這種方法讓AI 在得出答案前，可以反覆推敲，雖然這也導致其回應時間延長。

有用戶發現，模型竟然花了92秒才給出一個文字謎題的答案，但結果卻依然錯誤。

OpenAI 的研究科學家Noam Brown 對此表示，雖然目前的反應速度較慢，但他們期望未來的版本能進行更長的思考，甚至能在突破性問題上提供新見解。

不過，著名AI 評論家Gary Marcus 對此持懷疑態度，認為長時間的處理並不一定能帶來超越性的推理能力。他強調，儘管AI 技術不斷發展，現實中的研究和實驗仍然不可或缺。

可見，在實際使用中，OpenAI 的這款新AI 模型在各方面的表現仍讓人失望，而這也引發了關於AI 技術未來發展的討論。

劃重點:

近日，OpenAI 推出新AI 模型“草莓”，聲稱在複雜任務上能與博士生相媲美。

許多用戶發現，這款AI 在基本任務上頻頻出錯，例如提出非法棋步和錯誤回答簡單謎題。

? OpenAI 承認模型仍在發展中，但長時間思考未必能提高推理能力，許多基礎問題仍未解決。

總而言之，OpenAI的「o1-preview」模型雖然展現了AI技術發展的潛力，但也暴露出其在實際應用上存在的許多不足。未來，AI模型的發展仍需在技術完善和實際應用之間取得平衡，才能真正實現其預期的目標。 Downcodes小編將持續關注AI領域動態，為大家帶來更多精彩報導。