OpenAI發布了全新經濟型AI模型GPT-4o mini,其成本大幅降低,性能卻毫不遜色,標誌著AI技術向更廣泛應用邁進的關鍵一步。本文將深入探討GPT-4o mini的效能、安全性和價格優勢,以及它對AI未來發展的影響。
OpenAI又放大招了!他們最新推出的GPT-4o mini,號稱是「最經濟適用」的小型模型。這不僅僅是一個模型的升級,更像是一場智慧革命的開始。今天,就讓我們一起來揭開GPT-4o mini的神秘面紗,看看它如何讓智慧更「接地氣」。
更聰明,更省錢
OpenAI的願景是讓智慧無所不在,而GPT-4o mini正是這個願景的最新實踐。這款模型不僅在成本上大幅降低,性能上也毫不遜色。它的價格僅為每百萬輸入令牌15美分,每百萬輸出令牌60美分,比之前的前沿模型便宜了一個數量級,比GPT-3.5Turbo更是便宜了60%以上。
小身材,大智慧
GPT-4o mini在學術基準測試中超越了GPT-3.5Turbo和其他小型模型,無論是文本智能還是多模態推理。它還支援與GPT-4o相同的語言範圍,並在函數調用方面表現出色,這可以使得開發者能夠構建能夠與外部系統獲取數據或執行操作的應用程序,並與GPT-3.5Turbo相比,改善了長上下文性能。
在關鍵基準測試中,GPT-4o mini的表現如下:
推理任務:在涉及文字和視覺的推理任務中,GPT-4o mini得分82.0%,而Gemini Flash為77.9%,Claude Haiku為73.8%。
數學和編碼能力:在數學推理和編碼任務中,GPT-4o mini同樣表現出色。在MGSM(數學推理)測驗中,得分87.0%,而Gemini Flash為75.5%,Claude Haiku為71.7%。在HumanEval(編碼效能)測試中,得分87.2%,而Gemini Flash為71.5%,Claude Haiku為75.9%。
多模態推理:在MMMU(多模態推理評估)中,GPT-4o mini得分59.4%,而Gemini Flash為56.1%,Claude Haiku為50.2%。
內建安全措施
安全始終是openAI模型開發的核心。在預訓練階段,openAI過濾掉不希望模型學習或輸出的訊息,例如仇恨言論、成人內容、主要聚合個人資訊的網站和垃圾郵件。在訓練後,openAI使用強化學習與人類回饋(RLHF)等技術,使模型的行為與openAI的政策保持一致,提高模型反應的準確性和可靠性。
GPT-4o mini內建了與GPT-4o相同的安全緩解措施,openAI根據原先的準備框架和自願承諾,透過自動化和人類評估進行了仔細評估。超過70名社會心理學和錯誤訊息等領域的外部專家測試了GPT-4o,以識別潛在風險,目前,openAI已經解決這些問題,併計劃在即將發布的GPT-4o系統卡和準備就緒分數卡中分享詳細資訊。這些專家評估的見解幫助提高了GPT-4o和GPT-4o mini的安全性。
可用性和定價
GPT-4o mini現在作為文字和視覺模型在助理API、聊天完成API和批次API中可用。開發者支付每1M輸入令牌15美分,每1M輸出令牌60美分(大約相當於標準書中的2500頁)。我們計劃在未來幾天內為GPT-4o mini推出微調功能。
在ChatGPT中,免費、Plus和團隊用戶將能夠從今天開始存取GPT-4o mini,取代GPT-3.5。企業用戶也將從下週開始訪問,這符合openAI讓所有人都能享受AI帶來的好處的使命。
未來展望
OpenAI團隊表示:「在過去的幾年裡,我們見證了AI智能的顯著進步,同時成本大幅降低。例如,自2022年推出的功能較弱的text-davinci-003模型以來,GPT-4o mini的每令牌成本已經下降了99%。
「我們設想的未來是模型無縫整合到每個應用程式和每個網站。GPT-4o mini為開發者更有效率、更經濟地建立和擴展強大的AI應用程式鋪平了道路。AI的未來正變得更加可訪問、可靠,並嵌入我們的日常生活數位體驗中,我們很高興繼續引領這一潮流。
總而言之,GPT-4o mini憑藉其優異的性能、經濟的價格和強大的安全措施,為AI應用的普及提供了堅實的基礎,預示著AI技術將更加廣泛地融入我們的生活。