これは Genmoai の txt2video モデルの進行中のフォークであり、VRAM が削減された単一の GPU ノードで実行するように最適化されています。
48GB でかなりの能力がありますが、現時点では 24GB GPU を 1 つ搭載して実行する必要があります。
61 フレームを超えないようにして、640x480 を試してください。 VRAM は主にフレーム数と解像度に応じて使用されます。推論ステップによって VRAM の使用量が変わることはありませんが、ビデオの作成にかかる時間はステップに応じて変化します。 100 ステップは問題ないようですが、おそらく 15 ~ 25 分かかります。元のソースでは 200 ステップを使用していましたが、これには約 2 倍の時間がかかります。
Windows はまだテストされていませんが、おそらく動作する可能性があります。  ̄ (ツ) / ̄
システムがデスクトップの実行にすでに VRAM を使用している場合は、設定をさらに下げる必要がある場合があります。
ほとんどの場合、不要な場合は vae、te、dit などを CPU に前後にシフトし、どこでも bfloat16 を使用します。これには、大量のシステム RAM (約 64GB) が必要になるか、T5 と DIT がまだかなり大きいため、システム RAM が 32G 以下の場合にページファイルの使用に戻さなければならない場合、非常に遅くなる可能性があります。モデルを前後に移動する時間は、DIT ステップで費やされる推論時間と比較するとかなり短いです。
さらなる最適化...おそらく bitsandbytes NF4。出力品質が損なわれないと仮定すると、容量は 16 GB 以下になる可能性があります。最初のフレーム画像を挿入して img2video を実行できるかどうかを試してみるかもしれません。
ブログ |顔を抱きしめる |遊び場 |キャリア
Genmo による最先端のビデオ生成モデル。
Mochi 1 プレビューは、高忠実度のモーションと事前評価における強力な即時遵守を備えた、オープンな最先端のビデオ生成モデルです。このモデルは、クローズド ビデオ生成システムとオープン ビデオ生成システムの間のギャップを劇的に埋めます。このモデルは、寛容な Apache 2.0 ライセンスの下でリリースされています。このモデルを私たちの遊び場で無料でお試しください。
UV を使用してインストールします。
git clone https://github.com/genmoai/models
cd models
pip install uv
uv venv .venv
source .venv/bin/activate
uv pip install -e .
Hugging Face から、またはmagnet:?xt=urn:btih:441da1af7a16bcaa4f556964f8028d7113d21cbb&dn=weights&tr=udp://tracker.opentrackr.org:1337/announce
で、コンピュータ上のフォルダーにウェイトをダウンロードします。
gradio UIを開始します
python3 -m mochi_preview.gradio_ui --model_dir " "
または、CLI から直接ビデオを生成します。
python3 -m mochi_preview.infer --prompt " A hand with delicate fingers picks up a bright yellow lemon from a wooden bowl filled with lemons and sprigs of mint against a peach-colored background. The hand gently tosses the lemon up and catches it, showcasing its smooth texture. A beige string bag sits beside the bowl, adding a rustic touch to the scene. Additional lemons, one halved, are scattered around the base of the bowl. The even lighting enhances the vibrant colors and creates a fresh, inviting atmosphere. " --seed 1710977262 --cfg-scale 4.5 --model_dir " "
をモデル ディレクトリへのパスに置き換えます。
Mochi 1 は、オープンソース ビデオ生成における大幅な進歩を表しており、当社の新しい非対称拡散トランス (AsymmDiT) アーキテクチャに基づいて構築された 100 億パラメータの拡散モデルを特徴としています。完全にゼロからトレーニングされた、これまで公にリリースされた最大のビデオ生成モデルです。そして何よりも、それはシンプルでハッキング可能なアーキテクチャです。さらに、効率的なコンテキスト並列実装を含む推論ハーネスをリリースします。
Mochi と並行して、ビデオ AsymmVAE をオープンソース化しています。非対称のエンコーダー/デコーダー構造を使用して、効率的な高品質の圧縮モデルを構築します。当社の AsymmVAE は、8x8 の空間圧縮と 6 倍の時間圧縮を使用して、ビデオを 128 倍の小さいサイズに因果的に圧縮し、12 チャネルの潜在スペースに圧縮します。
パラメータ カウント | エンクベース チャンネル | 12月ベース チャンネル | 潜在的 薄暗い | 空間的 圧縮 | 時間的 圧縮 |
---|---|---|---|---|---|
362M | 64 | 128 | 12 | 8x8 | 6倍 |
AsymmDiT は、テキスト処理を合理化し、ニューラル ネットワークの能力を視覚的推論に集中させることで、圧縮されたビデオ トークンとともにユーザー プロンプトを効率的に処理します。 AsymmDiT は、マルチモーダル セルフ アテンションでテキストとビジュアル トークンを共同で処理し、安定拡散 3 と同様に、モダリティごとに個別の MLP レイヤーを学習します。ただし、ビジュアル ストリームには、より大きな非表示を介してテキスト ストリームのほぼ 4 倍のパラメータがあります。寸法。セルフアテンションのモダリティを統一するために、非正方形 QKV と出力投影レイヤーを使用します。この非対称設計により、推論メモリ要件が軽減されます。最新の普及モデルの多くは、ユーザー プロンプトを表すために複数の事前トレーニング済み言語モデルを使用します。対照的に、Mochi 1 は単一の T5-XXL 言語モデルを使用してプロンプトを単純にエンコードします。
パラメータ カウント | 番号 レイヤー | 番号 ヘッズ | ビジュアル 薄暗い | 文章 薄暗い | ビジュアル トークン | 文章 トークン |
---|---|---|---|---|---|---|
10B | 48 | 24 | 3072 | 1536年 | 44520 | 256 |
このモデルを実行するには、少なくとも 4 つの H100 GPU が必要です。この要件を軽減するためにコミュニティからの貢献を歓迎します。
Genmo ビデオ モデルは、トレーニング データに含まれるバイアスや先入観を本質的に反映する、一般的なテキストからビデオへの拡散モデルです。 NSFW コンテンツを制限するための措置が講じられていますが、組織は、商用サービスや製品にこれらのモデルの重みを導入する前に、追加の安全プロトコルを実装し、慎重に検討する必要があります。
研究プレビューでは、Mochi 1 は生きて進化するチェックポイントです。既知の制限がいくつかあります。現在、最初のリリースでは 480p でビデオが生成されます。極端な動きを伴う一部のエッジケースでは、軽微な歪みや歪みが発生する場合もあります。 Mochi 1 はフォトリアリスティックなスタイルにも最適化されているため、アニメーション コンテンツではうまく動作しません。また、コミュニティがさまざまな美的好みに合わせてモデルを微調整することも期待されています。
@misc{genmo2024mochi,
title={Mochi},
author={Genmo Team},
year={2024}
}