Rhymes AI 推出了革命性的文字-圖像到視訊生成模型Allegro-TI2V,該模型標誌著AI 在創意領域的重大突破。 Allegro-TI2V 支援高達79.2K 的上下文長度,輸出解析度為720×1280 像素,並提供多種生成模式,例如後續視訊生成和中間視訊生成,極大提升了視訊創作效率。該模型在Apache2.0 許可下發布,用戶可輕鬆存取和使用。
Rhymes AI最近發布了其革命性文字-圖像到視訊生成模型Allegro-TI2V,這項突破性技術為數位內容創作開闢了全新的疆界。作為生成式AI的最新進展,Allegro-TI2V為創意工作者提供了前所未有的視覺敘事工具,標誌著AI技術在創意領域的巨大潛力。
Allegro-TI2V在多個技術規格上表現卓越,支援高達79.2K的上下文長度,相當於88幀影片。其輸出解析度為720×1280像素,影片產生速度為每秒15幀,使用者也可選擇內插至30FPS,以滿足不同應用場景的需求。這款模型的架構非常複雜,包含了1.75億參數的VideoVAE和28億參數的VideoDiT模型,使其能夠精準捕捉用戶輸入的文字提示和初始圖像的本質。此外,Allegro-TI2V也支援多精確度模式(FP32、BF16、FP16),在BF16模式下,產生影片僅需9.3GB的GPU內存,大幅降低了硬體需求。
Allegro-TI2V的創新之處在於其引入了兩種全新的生成模式:後續視訊生成:基於文字提示和初始幀,創建連續的視訊內容。這種模式能夠幫助創作者輕鬆產生符合設定主題和風格的影片。中間影片生成:在給定影片的首尾幀的基礎上,產生自然過渡的中間幀,打破傳統影片編輯的時間與空間限制。
這些創新模式使得Allegro-TI2V能夠為創作者提供更有效率、更靈活的影片創作方式,大幅提升了創作效率和品質。
Rhymes AI在Apache2.0許可下發布了Allegro-TI2V,使得研究人員、開發者和內容創作者能夠更輕鬆地存取和使用這項技術。用戶只需安裝Python3.10+、PyTorch2.4+和CUDA12.4+,便可輕鬆上手並快速體驗這項先進技術。
Allegro-TI2V的應用前景極為廣泛,從電影製作、遊戲開發到數位藝術和創意原型,都能充分發揮其強大的生成能力。根據開發者提供的數據,單一H100GPU在約20分鐘內即可生成6秒的視頻,而使用8個H100GPU配置,生成時間將縮短至3分鐘,顯著提升了視頻內容創作的效率。
使用網址:https://huggingface.co/rhymes-ai/Allegro-TI2V
產品地址:https://rhymes.ai/blog-details/allegro-advanced-video-generation-model
Allegro-TI2V憑藉其強大的功能和易用性,將大大推動影片內容創作的發展,為創意產業帶來新的可能性。其開源的特性也鼓勵了更廣泛的社區參與和技術發展,值得期待其未來的應用和改進。