LeCun と Xie Senin のチームは、印象的なマルチモーダル大規模言語モデル Cambrian-1 をリリースしました。これは、ビジョンを最優先にした革新的な作品です。 これは技術的な進歩であるだけでなく、マルチモーダル学習研究に関する新しい考え方を表しており、そのオープンソースの性質により研究者や開発者に貴重なリソースが提供されます。 Cambrian-1 の設計は、視覚表現学習、コネクタ設計、命令微調整データ、命令微調整戦略、ベンチマーク テストの 5 つのコア要素を中心に展開されており、視覚言語タスクで優れたパフォーマンスを発揮し、一部のトップ独自モデルとさえ匹敵します。 。しかし、研究チームはモデルの対話能力の欠点も率直に指摘し、訓練方法の改善など積極的に対応した。
AI の世界では、目を引く新メンバー、LeCun や Xie Saining などの業界大手が共同作成したマルチモーダル大規模言語モデル (MLLM) である Cambrian-1 を迎えました。このモデルの出現はテクノロジーの飛躍であるだけでなく、マルチモーダル学習研究への深い反映でもあります。
Cambrian-1 の設計哲学はビジョンを第一に考えており、これは今日の言語中心の AI 研究において特に価値があります。人間が知識を獲得する唯一の方法は言語ではなく、視覚、聴覚、触覚などの感覚経験も同様に重要であることを思い出させます。 Cambrian-1 のオープンソースは、マルチモーダル学習に関心のあるすべての研究者と開発者に貴重なリソースを提供します。
このモデルの構築は、視覚表現学習、コネクタ設計、命令微調整データ、命令微調整戦略、ベンチマーク テストという 5 つの中心要素を中心に展開されます。各要素は MLLM 設計空間の徹底的な調査であり、既存の問題に対する研究チームの独自の洞察を反映しています。
Cambrian-1 の視覚言語タスクにおけるパフォーマンスが印象的であることは言及する価値があります。他のオープンソース モデルよりも優れたパフォーマンスを発揮するだけでなく、一部のベンチマークでは業界トップの独自モデルとさえ匹敵します。この成果の背後には、命令の微調整とコネクタ設計に関する研究チームの革新的な考え方があります。
しかし、カンブリア紀 1 号の研究の道は順風満帆ではありませんでした。研究者らは、よく訓練されたMLLMであっても会話能力に欠陥がある可能性があり、これは「留守番電話現象」として知られる現象であることを発見した。この問題を解決するために、モデルがより豊かな会話を行えるようにシステム プロンプトをトレーニングに追加しました。
カンブリア紀 1 号の成功は、その背後にある強力な研究チームと切り離すことができません。その中でも、Shengbang Tong は論文の著者の一人であり、彼の貢献は無視できません。現在、彼はニューヨーク大学でヤン・ルカン教授とシェ・サイニン教授の指導の下、博士号取得を目指して勉強しています。彼の研究対象は、世界モデル、教師なし/自己教師あり学習、生成モデル、マルチモーダル モデルなどです。
Cambrian-1 のオープンソースは、AI コミュニティに新風をもたらします。これは強力なマルチモーダル学習ツールを提供するだけでなく、人々にマルチモーダル学習の研究について深く考えるよう促します。カンブリア紀 1 号の探査に参加する研究者や開発者が増えるにつれ、カンブリア紀 1 号が AI 技術の開発を促進する重要な力になると信じる理由があります。
プロジェクトアドレス: https://github.com/cambrian-mllm/cambrian
論文: https://arxiv.org/abs/2406.16860
Cambrian-1 の出現は、マルチモーダル AI の分野に新たな可能性をもたらし、そのオープンソースの性質も広範な協力とイノベーションを促進します。 Cambrian-1 が今後さらに多くの分野でその強力な能力を発揮し、AI 技術の継続的な進歩を促進できることを期待しています。