北京 TuSimple Future Technology Co., Ltd. は、2024 年 12 月 17 日に最初の「TuSimple Video」大型モデル「Ruyi」を正式にリリースし、Ruyi-Mini-7B バージョンをオープンソース化しました。このモデルはコンシューマーグレードのグラフィックス カード用に特別に設計されており、フレーム間の一貫性とモーションの滑らかさの点で優れたパフォーマンスを発揮し、アニメーションやゲームのクリエイターに強力なクリエイティブ ツールを提供します。マルチ解像度、マルチデュレーションのビデオ生成をサポートし、さまざまな制御機能を備えているため、コンテンツ作成のサイクルとコストを効果的に削減できます。 これは、TuSimple にとって AI テクノロジー応用分野における重要な一歩となるとともに、ACG 愛好家に新しいクリエイティブな体験をもたらします。
北京 TuSimple Future Technology Co., Ltd. は、2024 年 12 月 17 日に最初の「TuSimple Video」大型モデル「Ruyi」を正式にリリースし、ユーザーが Huggingface プラットフォームからダウンロードして使用できるように Ruyi-Mini-7B バージョンをオープンソースにしました。 TuSimple は 2015 年に設立され、米国カリフォルニア州サンディエゴに本社を置き、アニメーション ゲームや運輸業界などの複数の業界での AI テクノロジーの応用に注力しています。
Ruyi のラージ モデルは、コンシューマー グレードのグラフィック カードで実行できるように設計されており、詳細な導入手順と ComfyUI ワークフローを提供して、ユーザーがすぐに使い始めることができます。フレーム間の一貫性、動きの滑らかさ、色の表現と構成における優れたパフォーマンスを備えたこのモデルは、ビジュアル ストーリーテリングに新たな可能性を提供し、アニメーションやゲーム シーンの深層学習を実行するため、ACG 愛好家にとって理想的なクリエイティブ パートナーとなっています。
Ruyi モデルはマルチ解像度とマルチデュレーションの生成をサポートしており、384×384 ~ 1024×1024 の解像度、任意のアスペクト比、および最大 120 フレーム/5 秒のビデオ生成を処理できます。また、最初のフレーム、最初と最後のフレーム制御生成、動き振幅制御、および 5 つのレンズ制御もサポートします。 Ruyi は DiT アーキテクチャに基づいており、Casual VAE モジュールと Diffusion Transformer で構成されており、パラメータの合計サイズは約 7.1B で、トレーニングには約 200M のビデオ クリップが使用されます。
Ruyi は技術的に大幅な進歩を遂げていますが、手の変形、複数人がいる場合の顔のディテールの崩れ、制御不能なトランジションなどのいくつかの欠陥がまだあり、TuSimple は今後のアップデートでこれらを改善し修正するために懸命に取り組んでいます。
TuSimple は将来を見据えて、シーンのニーズを引き続き掘り下げ、CUT を直接生成するブレークスルーを達成し、さまざまなクリエイターのニーズを満たすために次のリリースで 2 つのバージョンを提供する予定です。同社は、アニメーションとゲーム コンテンツの開発サイクルとコストを削減するために大規模モデルの使用に取り組んでいます。Ruyi の大規模モデルは、キー フレームの入力後に 5 秒間のコンテンツを生成することも、2 つのキー フレームを入力すると、モデルが中間トランジション コンテンツを生成することもできます。開発サイクルを短縮します。
ハグフェイスリンク:
https://huggingface.co/IamCreateAI/Ruyi-Mini-7B
全体として、Ruyi の大規模モデルのオープンソース リリースはアニメーションとゲームの作成に新たな可能性をもたらしました。いくつかの欠点はありますが、TuSimple によるモデルのさらなる最適化と改善に期待する価値があります。以降のバージョン。