Salesforce が視覚的な理解を助けるオープンソースのマルチモーダル AI モデル xGen-MM を発表

著者：Eve Cole 更新時間：2024-12-22 13:16:01

Salesforce は、テキストや画像などの複数のデータ型を同時に理解して生成できる強力なツールである、マルチモーダル AI モデル xGen-MM の画期的なオープンソースを作成しました。このモデルには 40 億のパラメータがあり、複数のベンチマークで良好なパフォーマンスを示しています。そのオープンソースの性質は、現在の業界トレンドとは対照的であり、AI 分野でのオープン研究を促進するという Salesforce の取り組みを反映しています。 xGen-MM は、「インターリーブデータ」を処理する機能がユニークで、複数の画像に関する質問に同時に答えるなど、より複雑なタスクを実行でき、医療診断や自動運転などの分野で大きな応用の可能性があります。

Salesforce は、xGen-MM と呼ばれるオープンソースのマルチモーダル AI モデルのセットを発表しました。このモデルのセットは、テキストや画像などの複数のデータ型を同時に理解して生成することができ、AI の研究と応用の方法を完全に変える可能性があります。

Salesforce AI 研究チームは、xGen-MM フレームワークについて詳しく説明した論文を arXiv で発表しました。このフレームワークには、事前トレーニングされたモデルだけでなく、データセットや微調整コードも含まれています。この最大のモデルには 40 億のパラメーターがあり、そのパフォーマンスは複数のベンチマークテストで良好な結果を示しており、同様のオープンソースモデルに劣らないことは言及する価値があります。

このオープンソースへの動きは、多くのテクノロジー大手が高度な AI モデルを秘密にしておくという現在の傾向とはまったく異なります。 Salesforceは、モデルとデータセットをオープンにすることで、より広範な研究開発を促進したいと述べている。実際、この決定は、より多くの研究者や開発者にマルチモーダル AI テクノロジーの進歩に参加する機会を与えることでもあります。

xGen-MM の革新の 1 つは、「インターリーブデータ」を処理できる機能です。つまり、複数の画像とテキストを同時に処理できます。この機能により、モデルは複数の画像に関する質問に同時に答えるなど、より複雑なタスクを実行できるようになります。これは本当に素晴らしいことです。このようなアプリケーションシナリオは、医療診断や自動運転などの分野で非常に役立つ可能性があります。

このリリースには、事前トレーニングされた基本モデル、指示に従うように調整されたモデル、有害な出力を減らすように設計された「安全調整された」モデルなど、モデルの複数の最適化されたバージョンも含まれています。この多様な選択は、AI コミュニティが機能と安全倫理のバランスをますます重視していることを反映しています。

しかし、強力なモデルのリリースは、より高度な AI システムの潜在的なリスクや社会的影響についての議論も引き起こしました。 Salesforce はリスクを軽減するためにセキュリティ調整を行っていますが、イノベーションとセキュリティのバランスをどう取るかは依然として検討に値する問題です。

Salesforce からのこのオープンソースリリースは、研究者にこれらの強力なテクノロジーをより深く理解し、改善するための貴重なツールを提供します。同時に、これは AI 分野における透明性の新たな基準を設定するものであり、他のテクノロジー大手が研究についてよりオープンになる可能性があります。

モデルの入り口: https://huggingface.co/collections/Salesforce/xgen-mm-1-models-662971d6cecbf3a7f80ecc2e

ハイライト:

xGen-MM は、Salesforce によって発表されたオープンソースのマルチモーダル AI モデルのセットで、テキストと画像の包括的な理解と生成をサポートします。

このモデルにはインターリーブされたデータを処理する機能があり、複数の画像に関する質問に同時に答えることができるため、幅広い応用の可能性があります。

? このリリースにはさまざまな最適化されたバージョンが含まれており、安全性と倫理的な問題に注意を払い、研究者に豊富なリソースを提供します。

全体として、Salesforce のオープンソース xGen-MM は、AI 分野における大きな進歩であり、強力なツールを提供するだけでなく、よりオープンで責任ある AI 研究開発の方向性の模範となるものでもあり、期待に値します。将来のさまざまな分野での応用と展開。