這是 Genmoai txt2video 模型的一個正在進行中的分支,經過最佳化,可以在具有減少的 VRAM 的單一 GPU 節點上運行。
48GB 的效能相當強大,但現在應該只能使用單一 24GB GPU 來運作。
不要超過 61 幀並嘗試 640x480。 VRAM 主要使用幀數和解析度。推理步驟不應改變 VRAM 使用,但創建影片所需的時間會隨著步驟而變化。 100 步似乎沒問題,可能需要 15-25 分鐘。原始來源使用了 200 個步驟,但這將花費大約兩倍的時間。
Windows 尚未測試,但它可能可以工作嗎? ˙ (ツ) /˙
如果您的系統已經使用 VRAM 來運行桌面,您可能需要進一步降低設定。
大多數情況下,只是在不需要時將 vae、te、dit 等來回轉移到 cpu,並在各處使用 bfloat16。這可能需要大量的系統 RAM (~64GB),或者如果系統 RAM <=32G 因為 T5 和 DIT 仍然相當大,則如果必須恢復使用頁面文件,則可能會特別慢。與 DIT 步驟中花費的推理時間相比,來回移動模型的時間相當短。
進一步優化...也許是bitsandbytes NF4。假設它不會破壞輸出質量,這可能會將其降至 16GB 或更少。可以嘗試看看我是否可以注入第一幀圖像以使其執行 img2video。
部落格 |擁抱臉|遊樂場|職業機會
Genmo 最先進的視訊生成模型。
Mochi 1預覽版是一個開放的最先進的視訊生成模型,具有高保真度運動和初步評估中強烈的即時依從性。該模型大大縮小了封閉式和開放式視訊生成系統之間的差距。我們將在寬鬆的 Apache 2.0 授權下發布該模型。在我們的遊樂場免費嘗試這個模型。
使用 uv 安裝:
git clone https://github.com/genmoai/models
cd models
pip install uv
uv venv .venv
source .venv/bin/activate
uv pip install -e .
從 Hugging Face 或透過magnet:?xt=urn:btih:441da1af7a16bcaa4f556964f8028d7113d21cbb&dn=weights&tr=udp://tracker.opentrackr.org:1337/announce
到電腦上的資料夾到電腦上的資料夾到電腦上的資料夾。
啟動漸層 UI
python3 -m mochi_preview.gradio_ui --model_dir " "
或直接從 CLI 生成視頻
python3 -m mochi_preview.infer --prompt " A hand with delicate fingers picks up a bright yellow lemon from a wooden bowl filled with lemons and sprigs of mint against a peach-colored background. The hand gently tosses the lemon up and catches it, showcasing its smooth texture. A beige string bag sits beside the bowl, adding a rustic touch to the scene. Additional lemons, one halved, are scattered around the base of the bowl. The even lighting enhances the vibrant colors and creates a fresh, inviting atmosphere. " --seed 1710977262 --cfg-scale 4.5 --model_dir " "
將
替換為模型目錄的路徑。
Mochi 1 代表了開源視訊生成領域的重大進步,具有基於我們新穎的非對稱擴散變壓器 (AsymmDiT) 架構構建的 100 億參數擴散模型。它完全從頭開始訓練,是有史以來公開發布的最大的視訊生成模型。最重要的是,它是一個簡單、可破解的架構。此外,我們還發布了一個推理工具,其中包括高效的上下文並行實作。
除了 Mochi 之外,我們還開源了我們的影片 AsymmVAE。我們使用非對稱編碼器-解碼器結構來建立高效的高品質壓縮模型。我們的 AsymmVAE 因果地將視訊壓縮到 128 倍小尺寸,並透過 8x8 空間壓縮和 6x 時間壓縮到 12 通道潛在空間。
參數 數數 | 編碼基地 頻道 | 十二月基準 頻道 | 潛 暗淡 | 空間 壓縮 | 顳 壓縮 |
---|---|---|---|---|---|
362M | 64 | 128 | 12 | 8x8 | 6x |
AsymmDiT 透過簡化文字處理並將神經網路能力集中在視覺推理上,有效地處理使用者提示和壓縮影片標記。 AsymmDiT 透過多模態自註意力機制聯合關注文字和視覺標記,並為每種模態學習單獨的MLP 層,類似於穩定擴散3。幾乎是文字流的4 倍。為了統一自註意力的模式,我們使用非方形 QKV 和輸出投影層。這種不對稱設計降低了推理記憶體需求。許多現代擴散模型使用多個預先訓練的語言模型來表示使用者提示。相較之下,Mochi 1 只是使用單一 T5-XXL 語言模型對提示進行編碼。
參數 數數 | 數量 層數 | 數量 頭 | 視覺的 暗淡 | 文字 暗淡 | 視覺的 代幣 | 文字 代幣 |
---|---|---|---|---|---|---|
10B | 48 | 24 | 3072 | 1536 | 44520 | 256 |
該模型至少需要 4 個 H100 GPU 才能運作。我們歡迎社區做出貢獻以減少這項要求。
Genmo 視訊模型是通用的文本到影片的擴散模型,本質上反映了訓練資料中發現的偏見和先入為主。雖然已採取措施限制 NSFW 內容,但組織應在任何商業服務或產品中部署這些模型權重之前實施額外的安全協議並仔細考慮。
根據研究預覽,Mochi 1 是一個活生生的、不斷發展的檢查點。有一些已知的限制。今天,初始版本產生 480p 的影片。在一些極端運動的邊緣情況下,也可能會發生輕微的扭曲和扭曲。 Mochi 1 也針對逼真風格進行了最佳化,因此在動畫內容上表現不佳。我們也預期社群將微調模型以適應不同的美學偏好。
@misc{genmo2024mochi,
title={Mochi},
author={Genmo Team},
year={2024}
}