Google 新發表Gemini-Exp-1206模型橫掃對手，超越ChatGPT成為AI新王

作者：Eve Cole 更新時間：2024-12-18 17:16:02

GoogleGemini-Exp-1206語言模型在LMArena排行榜上取得顯著成績，引發業界關注。其1379分的Arena Score超越了ChatGPT-4.0，成為新的領導者。然而，ChatGPT-4.0以更高的投票數顯示出更強的用戶認可度和可靠性。本文將深入分析Gemini-Exp-1206的優缺點，以及LMArena平台的評估機制，並探討其對人工智慧領域發展的影響。

谷歌在生成AI 領域的最新嘗試引起了廣泛關注。經過幾個月的平淡表現後，GoogleGemini 迅速走上了快車道，推出了新的實驗性語言模型——Gemini-Exp-1206。根據最新的ChatArena 排行榜顯示，這款模型在眾多競爭對手中脫穎而出，成為了生成AI 的領跑者。

Gemini-Exp-1206在LMArena 上獲得了最高的Arena Score，達到了1379分，略高於ChatGPT-4.0的1366分。這項得分錶明，Gemini-Exp-1206在多項評估中表現出色，展現了其卓越的綜合能力。此外，與先前的Gemini-Exp-1114相比，新車型也顯示出更強的性能。

那麼，什麼是LMArena 呢?LMArena，也稱為Chatbot Arena，是一個用於評估大型語言模型的開源平台。這個平台由LMSYS 和加州大學柏克萊分校SkyLab 共同開發，旨在透過即時測試和直接比較，支援社群對LLM 效能的評估。

在排行榜中，Arena Score 代表了模型在多種任務中的平均表現，分數越高表示能力越強。儘管GeminiExp-1206的分數高於ChatGPT-4.0，但在投票數量上，ChatGPT-4.0依然遙遙領先，共獲得了21，929票，而Gemini-Exp-1206則收穫了5052票。較高的投票數通常意味著更高的可靠性，因為這表明該模型經過了更廣泛的測試。

另外，95% 信賴區間的數據顯示，Gemini 的CI 為±10/-5，而ChatGPT 的CI 為±4/-5。這表明Gemini 的平均得分更高，但ChatGPT-4.0在性能穩定性方面表現更佳。

值得一提的是，Gemini 實驗模型是尖端的原型設計，旨在進行測試和回饋。這些模型為開發者提供了提前體驗Google最新AI 進展的機會，同時展示了持續的創新。然而，這些實驗模型是臨時性的，可能隨時更換，並不適合用於生產環境。

如果您想要免費使用Gemini-Exp-1206，只需前往GoogleAI Studio，登入後選擇建立提示，並在設定中將模型變更為Gemini Experimental1206，即可開始聊天。

儘管Gemini-Exp-1206的結果相當引人注目，但仍需記住其實驗性質。未來的潛力還需時間來揭示，業界期待著這一強勁競爭者的穩定發布。

專案入口:https://ai.google.dev/gemini-api/docs/models/experimental-models?hl=zh-cn

劃重點:

? Gemini-Exp-1206在LMArena 排行榜上取得了1379的高分，超越了ChatGPT-4.0的1366分。

?️ ChatGPT-4.0獲得的投票數達到21，929票，明顯高於Gemini-Exp-1206的5052票，顯示出其可靠性。

? Gemini 實驗模型為開發者提供了前所未有的AI 體驗機會，但仍處於測試階段，不適合生產使用。

總而言之，Gemini-Exp-1206展現了強大的潛力，但其實驗性質和較低的投票數也提醒我們，在實際應用中仍需謹慎。未來，隨著模型的進一步改進和更多用戶的測試回饋，Gemini系列模型有望在生成式AI領域佔據更重要的地位。持續關注其發展，將有助於更好地理解大型語言模型的未來趨勢。