OpenAI 的新AI 模型o1-preview 和o1-mini 在聊天機器人排名中取得最高分

作者：Eve Cole 更新時間：2024-12-02 11:32:01

Downcodes小編報：OpenAI最新發布的聊天機器人系統在近期評估中榮登榜首，其在整體性能、安全性以及技術能力上均表現出色，尤其在STEM任務方面表現突出。然而，值得注意的是，參與此評估的評分數量相對較低，這可能會對最終結果產生一定的影響，需要謹慎解讀。

OpenAI 的新系統在最近的評估中取得了出色的成績，贏得了聊天機器人排名的第一名。但是，由於評分數量較低，這可能會扭曲評估結果。

根據發布的概述，這些新系統在所有評估類別中都表現出色，包括整體性能、安全性和技術能力。其中一款專門用於STEM任務的系統與9月初發布的GPT-4o版本一起短暫排名第二，並在技術領域佔據領先地位。

Chatbot Arena是一個用於比較不同系統的平台，使用超過6，000個社區評分對新系統進行了評估。結果表明，這些新系統在數學任務、複雜提示和程式設計方面表現優異。

然而，這些新系統獲得的評分遠低於其他成熟系統，如GPT-4o或Anthropic的Claude3.5，每個系統的評論數均不到3，000條。如此小的樣本量可能會扭曲評估並限制結果的重要性。

OpenAI 的新系統在數學和編碼方面表現出色，這是其設計的主要目標。透過在回答之前「思考」更長時間，這些系統旨在為AI推理樹立新標準。然而，這些系統並非在所有領域都勝過其他系統。許多任務不需要複雜的邏輯推理，有時其他系統的快速反應就足夠了。

Lmsys關於數學模型強度的圖表清楚顯示，這些新系統的得分超過1360，遠高於其他系統的表現。

儘管樣本量有限，OpenAI新系統的優異表現依然值得關注。其在數學和編碼領域的突破，為AI推理技術發展提供了新的方向。未來，隨著更多數據的累積和模型的不斷完善，OpenAI的新系統有望在更多領域展現其強大的能力。 Downcodes小編將持續關注其發展。