Salesforce推出xGen-MM開源多模態AI模型，協助視覺理解

作者：Eve Cole 更新時間：2024-12-22 13:16:01

Salesforce 突破性地開源了其多模態AI 模型xGen-MM，這是一個能夠同時理解和生成文字、圖像等多種資料類型的強大工具。該模型擁有40億參數，在多個基準測試中表現出色，其開源性質與當前行業趨勢形成鮮明對比，體現了Salesforce 對推動AI 領域開放研究的承諾。 xGen-MM 的獨特之處在於其處理「交錯資料」的能力，這使其能夠執行更複雜的任務，例如同時回答關於多張影像的問題，在醫療診斷和自動駕駛等領域具有巨大的應用潛力。

Salesforce推出了一套名為xGen-MM 的開源多模態AI 模型，這套模型可以同時理解和產生文字、圖像等多種資料類型，可能會徹底改變我們對AI 的研究和應用方式。

Salesforce AI 研究團隊在arXiv 上發布了一篇論文，詳細介紹了xGen-MM 框架。這個框架不僅包含了預訓練模型，還有資料集和微調程式碼。值得一提的是，這個最大機型有40億個參數，效能在多個基準測試中表現不俗，與同類開源模型相比毫不遜色。

這次開源的舉動，與目前許多科技巨頭選擇將高級AI 模型保密的趨勢截然不同。 Salesforce 表示，他們希望透過開放模型和資料集，來促進更廣泛的研究和開發。其實，這樣的決定也是為了讓更多的研究人員和開發者有機會參與多模態AI 技術的進步。

xGen-MM 的一大創新在於它能夠處理“交錯資料”，也就是說，它可以同時處理多個圖像和文字。這種能力讓模型能夠執行更複雜的任務，例如同時回答關於多張圖像的問題，真的是相當牛!這樣的應用場景可能在醫療診斷、自動駕駛等領域會大有用武之地。

此次發布還包括了多種優化版本的模型，例如基礎預訓練模型、一個為遵循指令而調優的模型，以及一個旨在減少有害輸出的「安全調優」模型。這種多樣化的選擇，反映了AI 社群對能力與安全倫理的平衡日益重視。

不過，隨著強大模型的發布，也引發了人們對更先進AI 系統潛在風險和社會影響的討論。儘管Salesforce 已經做了安全調優來降低風險，但如何平衡創新與安全，仍然是個值得深思的問題。

Salesforce 的這項開源發布，為研究人員提供了寶貴的工具，以便更好地理解和改進這些強大的技術。同時，這也為AI 領域的透明度樹立了一個新的標桿，可能會推動其他科技巨頭更加開放他們的研究。

模型入口:https://huggingface.co/collections/Salesforce/xgen-mm-1-models-662971d6cecbf3a7f80ecc2e

劃重點:

xGen-MM 是Salesforce 推出的一套開源多模態AI 模型，支援文字和圖像的綜合理解與生成。

模型具有處理交錯資料的能力，能夠同時回答關於多張影像的問題，應用前景廣闊。

? 發表會包含多種最佳化版本，關注安全性與倫理議題，為研究者提供豐富的資源。

總而言之，Salesforce 開源xGen-MM 是AI 領域的一大進步，不僅提供了強大的工具，也為更開放、更負責任的AI 研究發展方向樹立了榜樣，值得期待其未來在各個領域的應用和發展。