Downcodes の編集者は、Zhipu AI が最近、CogVLM2-Video モデルのオープンソース アップグレードを発表したことを知りました。このモデルは、ビデオ理解の分野で大きな進歩を遂げ、時間情報の処理における既存のモデルの欠点を効果的に解決しました。マルチフレーム ビデオ画像とタイムスタンプ情報を導入し、自動化された時間位置決めデータ構築手法を利用することにより、CogVLM2-Video はビデオ字幕の生成と時間位置決めにおいて優れたパフォーマンスを発揮し、ビデオの生成や要約などのタスクに強力なツールを提供します。このモデルは、公開ビデオ理解ベンチマークにおいて最先端の結果を達成しており、効率的な自動データ生成プロセスにより、モデルのトレーニングのコストも削減されます。
Zhipu AI は、ビデオ理解の分野で大きな進歩を遂げたモデルである CogVLM2-Video モデルのオープンソース アップグレードを発表しました。 CogVLM2-Video は、マルチフレーム ビデオ画像とタイムスタンプをエンコーダ入力として導入することで、時間情報の損失に対処する既存のビデオ理解モデルの制限を解決します。このモデルは、自動化されたタイム ポジショニング データ構築手法を使用して 30,000 の時間関連のビデオ質問と回答データを生成し、それによって公開ビデオ理解ベンチマークで最新のパフォーマンスを達成するモデルをトレーニングします。 CogVLM2-Video は、ビデオの字幕生成と時間的位置決めに優れており、ビデオの生成や要約などのタスクに強力なツールを提供します。
CogVLM2-Video は、入力ビデオからフレームを抽出し、タイムスタンプ情報に注釈を付けます。これにより、言語モデルは各フレームの対応する時間を正確に知ることができ、それによって時間の位置特定と関連する質疑応答が実現されます。
大規模なトレーニングのために、自動化されたビデオ質疑応答データ生成プロセスが開発されました。これにより、画像理解モデルと大規模言語モデルを組み合わせて使用することで、注釈コストが削減され、データ品質が向上します。最終的に構築された時間的グラウンディング質問と回答 (TQA) データ セットには 30,000 レコードが含まれており、モデル トレーニングに豊富な時間的位置データを提供します。
CogVLM2-Video は、VideoChatGPT-Bench、Zero-shot QA、MVBench などの定量的評価指標での優れたパフォーマンスを含む、複数の公開評価セットで優れたパフォーマンスを実証しています。
コード: https://github.com/THUDM/CogVLM2
プロジェクト Web サイト: https://cogvlm2-video.github.io
オンライントライアル: http://36.103.203.44:7868/
全体として、CogVLM2-Video モデルのオープンソース アップグレードはビデオ理解の分野に新たな可能性をもたらし、その効率と精度は関連技術のさらなる開発を促進します。興味のある開発者は、提供されているリンクにアクセスして表示し、試してみることができます。 Downcodes の編集者は、このモデルに基づくさらに革新的なアプリケーションを楽しみにしています。