ブログ |顔を抱きしめる |遊び場 |キャリア
Genmo による最先端のビデオ生成モデル。
Mochi 1 プレビューは、高忠実度のモーションと事前評価における強力な即時遵守を備えた、オープンな最先端のビデオ生成モデルです。このモデルは、クローズド ビデオ生成システムとオープン ビデオ生成システムの間のギャップを劇的に埋めます。このモデルは、寛容な Apache 2.0 ライセンスの下でリリースされています。このモデルを私たちの遊び場で無料でお試しください。
UV を使用してインストールします。
git clone https://github.com/genmoai/modelscd モデル pip インストール UV uv venv .venvsource .venv/bin/activate uv pip インストール setuptools uv pip install -e 。 --ビルド分離なし
フラッシュ アテンションをインストールしたい場合は、以下を使用できます。
uv pip install -e .[flash] --no-build-isolation
出力をビデオに変換するには、FFMPEG をインストールする必要もあります。
download_weights.py を使用して、モデルとデコーダーをローカル ディレクトリにダウンロードします。次のように使用します。
python3 ./scripts/download_weights.py
または、Hugging Face からウェイトを直接ダウンロードするか、 magnet:?xt=urn:btih:441da1af7a16bcaa4f556964f8028d7113d21cbb&dn=weights&tr=udp://tracker.opentrackr.org:1337/announce
でコンピュータ上のフォルダーにウェイトをダウンロードします。
gradio UIを開始します
python3 ./demos/gradio_ui.py --model_dir "<ダウンロードされたディレクトリへのパス>"
または、CLI から直接ビデオを生成します。
python3 ./demos/cli.py --model_dir "<ダウンロードされたディレクトリへのパス>"
をモデル ディレクトリへのパスに置き換えます。
このリポジトリには、シンプルで構成可能な API が付属しているため、プログラムでモデルを呼び出すことができます。完全な例はここで見つけることができます。しかし、大まかに言うと次のようになります。
from genmo.mochi_preview.pipelines import ( DecoderModelFactory、DitModelFactory、MochiSingleGPUPipeline、T5ModelFactory、linear_quadratic_schedule、 )pipeline = MochiSingleGPUPipeline( text_encoder_factory=T5ModelFactory(), dit_factory=DitModelFactory( model_path=f"{MOCHI_DIR}/dit.safetensors", model_dtype="bf16" )、decoder_factory=DecoderModelFactory(model_path=f"{MOCHI_DIR}/vae.safetensors", )、cpu_offload=True、decode_type="tiled_full"、 )video = Pipeline( height=480、width=848、num_frames=31、num_inference_steps=64、sigma_schedule=linear_quadratic_schedule(64, 0.025)、cfg_schedule=[4.5] * 64、batch_cfg=False、prompt=ここにお気に入りのプロンプトが表示されます。 .."、negative_prompt=""、シード=12345、 )
Mochi 1 は、オープンソース ビデオ生成における大幅な進歩を表しており、当社の新しい非対称拡散トランス (AsymmDiT) アーキテクチャに基づいて構築された 100 億パラメータの拡散モデルを特徴としています。完全にゼロからトレーニングされた、これまで公にリリースされた最大のビデオ生成モデルです。そして何よりも、それはシンプルでハッキング可能なアーキテクチャです。さらに、効率的なコンテキスト並列実装を含む推論ハーネスをリリースします。
Mochi と並行して、ビデオ AsymmVAE をオープンソース化しています。非対称のエンコーダー/デコーダー構造を使用して、効率的な高品質の圧縮モデルを構築します。当社の AsymmVAE は、8x8 の空間圧縮と 6 倍の時間圧縮を使用して、ビデオを 128 倍の小さいサイズに因果的に圧縮し、12 チャネルの潜在スペースに圧縮します。
パラメータ カウント | エンクベース チャンネル | 12月ベース チャンネル | 潜在的 薄暗い | 空間的 圧縮 | 時間的 圧縮 |
---|---|---|---|---|---|
362M | 64 | 128 | 12 | 8x8 | 6倍 |
AsymmDiT は、テキスト処理を合理化し、ニューラル ネットワークの能力を視覚的推論に集中させることで、圧縮されたビデオ トークンとともにユーザー プロンプトを効率的に処理します。 AsymmDiT は、マルチモーダル セルフ アテンションでテキストとビジュアル トークンを共同で処理し、安定拡散 3 と同様に、モダリティごとに個別の MLP レイヤーを学習します。ただし、ビジュアル ストリームには、より大きな非表示を介してテキスト ストリームのほぼ 4 倍のパラメータがあります。寸法。セルフアテンションのモダリティを統一するために、非正方形 QKV と出力投影レイヤーを使用します。この非対称設計により、推論メモリ要件が軽減されます。最新の普及モデルの多くは、ユーザー プロンプトを表すために複数の事前トレーニング済み言語モデルを使用します。対照的に、Mochi 1 は単一の T5-XXL 言語モデルを使用してプロンプトを単純にエンコードします。
パラメータ カウント | 番号 レイヤー | 番号 ヘッズ | ビジュアル 薄暗い | 文章 薄暗い | ビジュアル トークン | 文章 トークン |
---|---|---|---|---|---|---|
10B | 48 | 24 | 3072 | 1536年 | 44520 | 256 |
このモデルを実行するには、少なくとも 4 つの H100 GPU が必要です。この要件を軽減するためにコミュニティからの貢献を歓迎します。
Genmo ビデオ モデルは、トレーニング データに含まれるバイアスや先入観を本質的に反映する、一般的なテキストからビデオへの拡散モデルです。 NSFW コンテンツを制限するための措置が講じられていますが、組織は、商用サービスや製品にこれらのモデルの重みを導入する前に、追加の安全プロトコルを実装し、慎重に検討する必要があります。
研究プレビューでは、Mochi 1 は生きて進化するチェックポイントです。既知の制限がいくつかあります。現在、最初のリリースでは 480p でビデオが生成されます。極端な動きを伴う一部のエッジケースでは、軽微な歪みや歪みが発生する場合もあります。 Mochi 1 はフォトリアリスティックなスタイルにも最適化されているため、アニメーション コンテンツではうまく動作しません。また、コミュニティがさまざまな美的好みに合わせてモデルを微調整することも期待されています。
ComfyUI-MochiWrapper は、Mochi の ComfyUI サポートを追加します。 Pytorch の SDPA アテンションの統合は、Pytorch のリポジトリから取得されました。
@misc{genmo2024mochi, title={Mochi}, author={Genmo Team}, year={2024} }