Downcodes小編獲悉,影片產生領域有重大進展! Genmo公司重磅開源了其最新影片生成模型Mochi1,該模型參數高達100億,是目前公開發布的最大影片生成模型。 Mochi1採用創新的Asymmetric Diffusion Transformer(AsymmDiT)架構,擁有簡單易修改的特性,為開源社群開發者提供了極大的便利,並能產生長達5.4秒、幀率高達30幀/秒的高品質影片。
視訊生成領域迎來重大突破!Genmo 公司重磅開源了其最新的視訊生成模型Mochi1,為視訊生成領域樹立了新的標竿。 Mochi1採用創新的Asymmetric Diffusion Transformer(AsymmDiT)架構,擁有高達100億個參數,是迄今為止公開發布的最大影片生成模型。
更重要的是,它完全從頭開始訓練,具有簡單、可修改的架構特點,為開源社群的開發者提供了極大的便利。
Mochi1的最大亮點在於其卓越的運動品質和對文字提示的精準遵循。它能夠產生長達5.4秒、幀率高達30幀/秒的流暢視頻,其時間連貫性和逼真的運動動態令人驚嘆。
Mochi1還能模擬各種物理現象,例如流體動力學、毛髮模擬等,其生成的人物動作自然流暢,幾乎可以媲美真人表演。
為了方便開發者使用,Genmo 也開源了其視訊VAE,可以將視訊壓縮到原始大小的1/128,有效降低了模型的計算量和記憶體需求。
AsymmDiT 架構則透過多模態自註意力機制,有效處理使用者提示和壓縮視訊標記,並為每種模態學習單獨的MLP 層,進一步提升了模型的效率和效能。
Mochi1的發布,標誌著開源視訊生成領域邁出了重要一步。 Genmo 公司表示,他們將在年底前發布Mochi1的完整版本,包括支援720p 影片生成的Mochi1HD,屆時影片的保真度和流暢度將進一步提升。
為了讓更多人體驗Mochi1的強大功能,Genmo 也推出了免費的託管遊樂場,用戶可以在genmo.ai/play 上體驗。 Mochi1的權重和架構也已在HuggingFace 平台上公開,供開發者下載使用。
Genmo 公司由DDPM、DreamFusion 和Emu Video 等專案的核心成員組成,其顧問團隊包括Databricks 和Anyscale 的執行主席兼聯合創始人Ion Stoica、Covariant 的聯合創始人兼OpenAI 的早期團隊成員Pieter Abbeel 以及語言模型系統的先驅兼Turi 的聯合創始人Joey Gonzalez 等行業領袖。
Genmo 公司的使命是解鎖通用人工智慧的右腦,Mochi1是建立可以想像一切事物(無論可能或不可能)的世界模擬器的第一步。
Genmo 公司最近完成了由NEA 領投的A 輪融資,總額高達2840萬美元,這將為他們未來的研究和開發提供充足的資金支持。
雖然Mochi1已經取得了令人矚目的成就,但它仍然存在一些限制。例如,初始版本目前只能生成480p 的視頻,在某些極端運動的邊緣情況下會出現輕微的扭曲和失真。此外,Mochi1目前主要針對照片寫實風格進行了最佳化,在動畫內容方面的表現仍有待提升。
Genmo 公司表示,他們將繼續改進Mochi1,並鼓勵社群對模型進行微調,以適應不同的美學偏好。同時,他們也在遊樂場中實施了強大的安全審核協議,以確保所有影片產生都符合道德準則。
模型下載:https://huggingface.co/genmo/mochi-1-preview
線上體驗:https://www.genmo.ai/play
官方介紹:https://www.genmo.ai/blog
Mochi1的開源為影片生成領域帶來了新的可能性,其強大的功能和便捷的使用方式值得期待。 Genmo公司的持續努力和社群的積極參與將進一步推動影片生成技術的進步。期待Mochi1HD的到來,也期待更多創新成果的出現。