潞晨團隊開源的Open-Sora專案在720p高清文生視訊生成領域取得了突破性進展,其高效的生成速度和高品質的輸出令人驚艷。該專案在GitHub上迅速獲得超過17.5K的星標,並受到業界廣泛關注,甚至連Lambda Labs都基於其模型權重構建了數位樂高宇宙。 Open-Sora不僅易於使用,如同點外賣般便捷,更重要的是,它開源了模型權重和詳細的技術路線,讓更多開發者和愛好者能夠參與其中,推動文生視頻技術的進步。
最近,潞晨Open-Sora 團隊在720p 高清文生視頻質量和生成時長上實現了突破性進展,他們不僅在720p高清視頻質量和生成時長上搞了個大新聞,還順手把這寶貝開源了,讓整個社區都沸騰了!
毫不誇張地說,他們的開源專案讓影片生成變得像點外賣一樣簡單。自從3月份亮相以來,它在GitHub上已經攬獲了17.5K的星星,火得一塌糊塗!
開源位址:https://github.com/hpcaitech/Open-Sora
Open-Sora能夠一鍵生成16秒720p高清視頻,無論是精緻的人物肖像,還是酷炫的科幻大片,亦或是生動有趣的動畫,流暢的變焦效果,它都能輕鬆應對。這不,連英偉達入股的AI公司Lambda Labs都基於Open-Sora模型權重,打造了一個數字樂高宇宙,讓樂高迷們找到了創意的新天地。
潞晨團隊不僅開源了模型權重,還在GitHub上做了技術路線,讓每個玩家都能成為影片大模型的掌控者。這份技術報告,深度剖析了模型訓練的核心和關鍵,從視訊壓縮網路到擴散模型演算法,再到可控性,他們用1.1B的擴散生成模型,解決了視訊模型訓練的痛點。
報告網址:https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md
視訊壓縮網路的引進,是OpenAI的Sora同款方法。它能在時間維度上進行4倍壓縮,無需抽幀,可以使用原始FPS產生影片。團隊也提出了一個簡單的視訊壓縮網路(即VAE),它能先在空間維度上實現8x8倍的壓縮,再從時間維度壓縮4倍。
Stable Diffusion3的最新擴散模型,透過rectified flow技術,提升了生成品質。潞晨團隊提供的技術包括整流訓練、Logit-norm時間步長採樣等,加快了模型訓練速度,減少了推理等待時間。
報告中也透露了模型訓練的核心細節,包括資料清洗、模型調優技巧,以及模型評估系統的建構。他們甚至提供了一鍵部署的Gradio應用,支援多種參數調節。
潞晨Open-Sora的開源,打破了閉環,為文生視頻的創新和發展注入了活力。用戶從內容消費者轉變為創造者,企業用戶解鎖了自主開發新技能。
Open-Sora的開源,降低了文生視訊技術的進入門檻,為未來的創意內容生成提供了無限可能,值得期待後續發展和更多應用程式場景的探索。