Alibaba Motor Hospitalは、eコマース会場に基づいたマルチモードの大規模な言語モデルであるValley2をリリースしました短いビデオの。 Valley2のデータセットは、ワンビジョンスタイルのデータ、E-コマースと短いビデオデータ、および複数のトレーニングの段階の後、特にE -Commerce関連の評価で優れた結果が達成されました。エッセンス アーキテクチャの設計とトレーニング戦略の最適化は、マルチモードと大規模なモデルのパフォーマンス改善のための新しいアイデアを提供します。
Alibaba Bardham Courtyardは、最近、Valley2と呼ばれるマルチモードの大規模な言語モデルを開始しました。ビデオシーンのアプリケーション境界。 Valley2は、QWEN2.5をLLMトランクとして使用し、Siglip-384 Visual Encoderを使用して、MLP層と畳み込みと組み合わせて効率的な機能変換を行います。その革新は、多様な実質世界の入力を処理する柔軟性とトレーニングと推論効率を高めるために、大規模な視覚語彙、コンバダプター、およびイーグルモジュールを導入することです。
Valley2のデータは、OneVisionスタイルのデータ、E-コマースと短いビデオの分野のデータ、および複雑な問題のチェーン思考(COT)データで構成されています。トレーニングプロセスは、テキスト視覚アライメント、高品質の知識学習、微調整の指示、およびチェーン思考の4つの段階に分けられます。実験では、Valley2は、特にMubench、Mmstar、Mathvista、その他のベンチマークで複数のパブリックベンチマークテストでうまく機能し、ECOM-VQAベンチマークテストで他の同じスケールモデルを上回りました。
将来的には、Alibaba Bardham Academyは、テキスト、画像、ビデオ、オーディオモジュラスを含むすべての環境モデルをリリースし、Valleyに基づくマルチモジリック組み込みトレーニング方法を導入して、下流の検索および検出アプリケーションをサポートします。
Valley2の発売は、マルチモーダルの大規模なスケール言語モデルの分野で重要な進歩を示し、構造改善、データセットの構築、トレーニング戦略の最適化を通じてモデルのパフォーマンスを改善する可能性を示しています。
モデルリンク:
https://www.modelscope.cn/models/bytedance-research/valley-eagle-7b
コードリンク:
https://github.com/bytedance/valley
論文リンク:
https://arxiv.org/abs/2501.05901
Valley2のリリースは、マルチモードおよび大規模モデルの分野でのアリババパダミンの高度な技術を示しているだけでなく、将来のEコマースと短いビデオフィールドがよりAIベースのイノベーションアプリケーションを導くことを示しています。 将来のValley2を楽しみにして、アプリケーションシナリオをさらに改善および拡張し、ユーザーにより便利でよりスマートなサービスを提供します。