北京圖森未來科技有限公司於2024年12月17日正式發布了其首款“圖生視頻”大模型——“Ruyi”,並開源了Ruyi-Mini-7B版本。這款模型專為消費級顯示卡設計,提供便利的部署和使用流程,在幀間一致性、動作流暢性等方面表現出色,為動漫和遊戲創作者提供了強大的創作工具。其支援多解析度、多時長影片生成,並具備多種控制功能,能夠有效降低內容創作的週期和成本。 這標誌著圖森未來在AI技術應用領域邁出了重要一步,也為ACG愛好者帶來了全新的創作體驗。
北京圖森未來科技有限公司於2024年12月17日正式發布了其首款“圖生視頻”大模型——“Ruyi”,並將Ruyi-Mini-7B版本開源,以便用戶從huggingface平台下載使用。圖森未來成立於2015年,總部位於美國加州聖迭戈,專注於AI技術在多個產業的應用,包括動畫遊戲和運輸業。
Ruyi大模型專為在消費級顯示卡上運行而設計,提供詳盡的部署說明和ComfyUI工作流程,以便使用者快速上手。該模型以其在幀間一致性、動作流暢性、色彩呈現和構圖方面的卓越表現,為視覺敘事提供新的可能性,並針對動漫和遊戲場景進行深度學習,成為ACG愛好者的理想創意夥伴。
Ruyi模型支援多重解析度、多時長生成,能夠處理從384×384到1024×1024的分辨率,任意長寬比,最長120幀/5秒的影片生成。它還支援首幀、首尾幀控制生成,運動幅度控制,以及五種鏡頭控制。 Ruyi基於DiT架構,由Casual VAE模組和Diffusion Transformer組成,總參數量約7.1B,使用約200M視訊片段進行訓練。
儘管Ruyi在技術上取得了顯著進展,但仍存在一些缺陷,如手部畸形、多人時面部細節崩壞、不可控轉場等問題,圖森未來正在努力改進並在未來的更新中修復這些問題。
展望未來,圖森未來計畫持續深耕場景需求,實現直接生成CUT的突破,並在下一次發布中提供兩個版本,以滿足不同創作者的需求。公司致力於利用大模型降低動漫和遊戲內容的開發週期和成本,Ruyi大模型已經能夠實現輸入關鍵影格後產生5秒內容,或輸入兩個關鍵影格由模型產生中間過渡內容,降低開發週期。
Hugging Face 連結:
https://huggingface.co/IamCreateAI/Ruyi-Mini-7B
總而言之,Ruyi大模型的開源發佈為動畫和遊戲創作帶來了新的可能性,雖然存在一些不足,但其未來的發展潛力巨大,值得期待圖森未來在後續版本中對模型進行進一步優化和完善。