部落格 |擁抱臉|遊樂場|職業機會
Genmo 最先進的視訊生成模型。
Mochi 1 預覽版是一種開放的最先進的視訊生成模型,具有高保真度運動和初步評估中的強烈提示依從性。該模型大大縮小了封閉式和開放式視訊生成系統之間的差距。我們將在寬鬆的 Apache 2.0 授權下發布該模型。在我們的遊樂場免費嘗試這個模型。
使用 uv 安裝:
git clone https://github.com/genmoai/modelscd 模型 點安裝紫外線 uv venv .venvsource .venv/bin/activate uv pip 安裝 setuptools uv pip install -e 。 --無建置隔離
如果要安裝flash注意,可以使用:
uv pip install -e .[flash] --no-build-isolation
您還需要安裝 FFMPEG 將輸出轉換為影片。
使用 download_weights.py 將模型+解碼器下載到本機目錄。像這樣使用它:
python3 ./scripts/download_weights.py <path_to_downloaded_directory>
或者,直接從 Hugging Face 或透過magnet:?xt=urn:btih:441da1af7a16bcaa4f556964f8028d7113d21cbb&dn=weights&tr=udp://tracker.opentrackr.org:1337/announce
。
啟動漸層 UI
python3 ./demos/gradio_ui.py --model_dir "<下載目錄路徑>"
或直接從 CLI 生成視頻
python3 ./demos/cli.py --model_dir "<下載目錄路徑>"
將<path_to_downloaded_directory>
替換為模型目錄的路徑。
該儲存庫附帶一個簡單的可組合 API,因此您可以透過程式設計方式呼叫該模型。您可以在這裡找到完整的範例。但是,粗略地說,它看起來像這樣:
從 genmo.mochi_preview.pipelines 導入(DecoderModelFactory、DitModelFactory、MochiSingleGPUPipeline、T5ModelFactory、線性_quadratic_schedule、 )pipeline = MochiSingleGPUPipeline( text_encoder_factory=T5ModelFactory(), dit_factory=DitModelFactory( model_path=f"{MOCHI_DIR}/dit.safetensors", model_dtype="bf16" ), detector_factory=DecoderModelFactory( model_path=f"{MOCHI_DIR}/vae.safetensors", ),cpu_offload=True,decode_type=“tile_full”, )video = pipeline( height=480, width=848, num_frames=31, num_inference_steps=64, sigma_schedule=linear_quadratic_schedule(64, 0.025), cfg_schedule=D.5]在這裡。 )
Mochi 1 代表了開源視訊生成領域的重大進步,具有基於我們新穎的非對稱擴散變壓器 (AsymmDiT) 架構構建的 100 億參數擴散模型。它完全從頭開始訓練,是迄今為止公開發布的最大的影片生成模型。最重要的是,它是一個簡單、可破解的架構。此外,我們還發布了一個推理工具,其中包括高效的上下文並行實作。
除了 Mochi 之外,我們還開源了我們的影片 AsymmVAE。我們使用非對稱編碼器-解碼器結構來建立高效的高品質壓縮模型。我們的 AsymmVAE 因果地將視訊壓縮到 128 倍小尺寸,並透過 8x8 空間壓縮和 6x 時間壓縮到 12 通道潛在空間。
參數 數數 | 編碼基地 頻道 | 十二月基準 頻道 | 潛 暗淡 | 空間 壓縮 | 顳 壓縮 |
---|---|---|---|---|---|
362M | 64 | 128 | 12 | 8x8 | 6x |
AsymmDiT 透過簡化文字處理並將神經網路能力集中在視覺推理上,有效地處理使用者提示和壓縮影片標記。 AsymmDiT 透過多模態自註意力機制聯合關注文字和視覺標記,並為每種模態學習單獨的MLP 層,類似於穩定擴散3。幾乎是文字流的4 倍。為了統一自註意力的模式,我們使用非方形 QKV 和輸出投影層。這種不對稱設計降低了推理記憶體需求。許多現代擴散模型使用多個預先訓練的語言模型來表示使用者提示。相較之下,Mochi 1 只是使用單一 T5-XXL 語言模型對提示進行編碼。
參數 數數 | 數量 層數 | 數量 頭 | 視覺的 暗淡 | 文字 暗淡 | 視覺的 代幣 | 文字 代幣 |
---|---|---|---|---|---|---|
10B | 48 | 24 | 3072 | 1536 | 44520 | 256 |
該模型至少需要 4 個 H100 GPU 才能運作。我們歡迎社區做出貢獻以減少這項要求。
Genmo 視訊模型是通用的文本到視訊擴散模型,本質上反映了訓練資料中發現的偏見和先入為主。雖然已採取措施限制 NSFW 內容,但組織應在任何商業服務或產品中部署這些模型權重之前實施額外的安全協議並仔細考慮。
根據研究預覽,Mochi 1 是一個活生生的、不斷發展的檢查點。有一些已知的限制。今天,初始版本產生 480p 的影片。在一些極端運動的邊緣情況下,也可能會發生輕微的扭曲和扭曲。 Mochi 1 也針對逼真風格進行了最佳化,因此在動畫內容上表現不佳。我們也預期社群將微調模型以適應不同的美學偏好。
ComfyUI-MochiWrapper 新增了對 Mochi 的 ComfyUI 支援。 Pytorch 的 SDPA 注意力的整合是從他們的儲存庫中獲取的。
@misc{genmo2024mochi, title={Mochi}, author={Genmo Team}, year={2024} }