全新開源AI 模型Molmo 橫掃業界巨頭，超越GPT-4o 與Claude 3.5

作者：Eve Cole 更新時間：2024-12-01 15:50:01

Downcodes小編獲悉，艾倫人工智慧研究所（Ai2）最近發布了全新開源多模態AI模型家族Molmo，其性能驚艷，在多個第三方基準測試中甚至超越了OpenAI的GPT-4o、Anthropic的Claude3.5Sonnet和Google的Gemini1.5。 Molmo不僅能分析用戶上傳的影像，在訓練過程中也使用了比競爭對手少1,000倍的數據，這歸功於其獨特的訓練技巧。這項突破性成果展示了Ai2對開放研究的承諾，為更廣泛的社群和企業提供了高效能模型以及開放的權重和資料。

Molmo 不僅能接受用戶上傳的圖像進行分析，還使用了「比競爭對手少1000倍的數據」進行訓練，這得益於其獨特的訓練技巧。

這次發布展示了Ai2對開放研究的承諾，提供了高效能的模型以及開放的權重和數據，供更廣泛的社區和企業使用。 Molmo 家族包括四個主要模型，分別是Molmo-72B、Molmo-7B-D、Molmo-7B-O 和MolmoE-1B，其中Molmo-72B 是旗艦模型，包含72億個參數，表現特別突出。

根據各項評估，Molmo-72B 在11重要基準測試中獲得了最高分，並在使用者偏好方面僅次於-4o。 Ai2也推出了一款為OLMoE 的模型，採用了「小型模型組合」的方式，旨在提高成本益。

Molmo 的架構經過精心設計，以實現高效和卓越的性能。所有模型使用OpenAI 的ViT-L/14336px CLIP 模型作為視覺編碼器，將多尺度的圖處理成視覺令。語言模型部分是解碼器Transformer，具有不同的容量和開放性。

在訓練方面，Mol 經過了兩階段的訓練:首先是多模預訓練，其次是有監督的微調。與許多現代模型不同，Molmo 並未依賴人類回饋的強化學習，而是透過細緻調優的訓練流程來更新模型參數。

Molmo 在多個基準測試中表現優異，特別是在文件閱讀和視覺推理等複雜任務中，展現了其強大的能力。 Ai2已經在Hugging Face 上發布了這些模型和資料集，未來幾個月還將推出更多模型和擴展技術報告，旨在為研究者提供更多資源。

如果你想了解Molmo 的功能，現在可以透過Molmo 的官方網站進行公開展示（https://molmo.allenai.org/）。

劃重點:

Ai2Molmo 開源模態AI 模式超越產業頂產品。

? Mol-72B 在多個基準測試中表現卓越，僅次於GPT4o。

開放性強，模型和資料集供研究者與自由使用。

總而言之，Molmo 的出現標誌著多模態AI領域的一大進步，其開源特性也為全球研究者提供了寶貴的資源。 Downcodes小編期待Molmo在未來能得到更廣泛的應用與發展，推動AI技術不斷進步。