Li Feifei 教授のチームによる最新の研究は、マルチモーダル大型モデルが空間インテリジェンスにおいて画期的な進歩を遂げ、空間を記憶し、想起し、ローカル世界モデルを構築する能力を実証したことを示しています。この研究では、VSI-Bench 評価ツールを使用して、実際のビデオ シナリオに基づいて複数の大規模モデルをテストしました。その結果、一部のモデルは空間推論タスクにおいて人間のレベルに達しているか、それに近づいていることがわかり、認知マップ支援によって空間を大幅に改善できることがわかりました。理解力。この研究は、空間認識分野における AI の最新の進歩を明らかにするだけでなく、将来的にはナビゲーション、ロボット インタラクション、その他の分野における AI の広範な応用を予告します。
研究チームが開発した VSI-Bench には、さまざまなシナリオや地理的領域をカバーする 5,000 以上の高品質な質問と回答のペアが含まれており、視覚空間知能を評価するための信頼できるベンチマークを提供します。この研究結果は、汎用人工知能(AGI)の開発を促進する上で非常に重要であり、また、空間知能AIモデルの開発に焦点を当てているリー・フェイフェイ教授によって設立された会社であるWorld Labsにとって強固な技術基盤を提供するものである。 同社の成功は、空間インテリジェント AI の大きな可能性と市場の見通しも裏付けています。
研究結果は、マルチモーダル モデルの全体的なパフォーマンスは依然として人間よりも低いものの、一部のタスクでは人間のレベルに達したか、人間のレベルに近づいていることを示しています。たとえば、Gemini-1.5Pro は絶対距離や部屋のサイズの推定などのタスクで優れたパフォーマンスを発揮し、LLaVA シリーズなどのいくつかのオープンソース モデルも競争力のある結果を達成しています。
この研究ではまた、空間推論を支援するために認知マップを使用すると、空間タスクにおけるモデルのパフォーマンスが大幅に向上し、精度が最大 10 パーセント向上する可能性があることも指摘しました。これは、認知マップを明示的に生成することが、空間理解におけるモデルのボトルネックを打破するのに役立つことを示しています。
Li Feifei 氏は、空間知能は物理世界を理解する AI の重要な能力であり、汎用人工知能 (AGI) の実現に不可欠であると述べました。彼女は、空間インテリジェンスが AI 分野における次の最先端技術の方向性になると信じており、2025 年には重要なブレークスルーを達成するとさえ予想されています。
今年9月、リー・フェイフェイ氏が設立した会社World Labsは正式な立ち上げを発表し、空間インテリジェンスを備えたAIモデルの開発に注力している。同社は、Nvidia、a16z、Adobe、その他の著名な機関から投資を受けており、現在の評価額は10億米ドルを超えています。
この研究とその応用は、2次元の情報処理から3次元の空間認識へのAI技術の重要な進歩を示し、将来的にはナビゲーション、ロボットインタラクション、拡張現実などの分野で広く使用され、可能性が広がることが期待されています。人工知能のさらなる発展への新たな道。
この研究結果は刺激的であり、AI 開発の新たな方向性を示しています。将来的には、テクノロジーの継続的な進歩に伴い、空間知能に基づく AI アプリケーションは私たちの生活を大きく変え、人間社会にさらなる利便性と可能性をもたらすでしょう。