開源版Sora？潞晨Open-Sora技術路線大公開，一鍵生成720p高清視頻，品質飛躍，成本跳水

作者：Eve Cole 更新時間：2025-01-03 10:32:01

潞晨團隊開源的Open-Sora專案在720p高清文生視訊生成領域取得了突破性進展，其高效的生成速度和高品質的輸出令人驚艷。該專案在GitHub上迅速獲得超過17.5K的星標，並受到業界廣泛關注，甚至連Lambda Labs都基於其模型權重構建了數位樂高宇宙。 Open-Sora不僅易於使用，如同點外賣般便捷，更重要的是，它開源了模型權重和詳細的技術路線，讓更多開發者和愛好者能夠參與其中，推動文生視頻技術的進步。

最近，潞晨Open-Sora 團隊在720p 高清文生視頻質量和生成時長上實現了突破性進展，他們不僅在720p高清視頻質量和生成時長上搞了個大新聞，還順手把這寶貝開源了，讓整個社區都沸騰了!

毫不誇張地說，他們的開源專案讓影片生成變得像點外賣一樣簡單。自從3月份亮相以來，它在GitHub上已經攬獲了17.5K的星星，火得一塌糊塗!

開源位址:https://github.com/hpcaitech/Open-Sora

Open-Sora能夠一鍵生成16秒720p高清視頻，無論是精緻的人物肖像，還是酷炫的科幻大片，亦或是生動有趣的動畫，流暢的變焦效果，它都能輕鬆應對。這不，連英偉達入股的AI公司Lambda Labs都基於Open-Sora模型權重，打造了一個數字樂高宇宙，讓樂高迷們找到了創意的新天地。

潞晨團隊不僅開源了模型權重，還在GitHub上做了技術路線，讓每個玩家都能成為影片大模型的掌控者。這份技術報告，深度剖析了模型訓練的核心和關鍵，從視訊壓縮網路到擴散模型演算法，再到可控性，他們用1.1B的擴散生成模型，解決了視訊模型訓練的痛點。

報告網址：https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md

視訊壓縮網路的引進，是OpenAI的Sora同款方法。它能在時間維度上進行4倍壓縮，無需抽幀，可以使用原始FPS產生影片。團隊也提出了一個簡單的視訊壓縮網路（即VAE），它能先在空間維度上實現8x8倍的壓縮，再從時間維度壓縮4倍。

Stable Diffusion3的最新擴散模型，透過rectified flow技術，提升了生成品質。潞晨團隊提供的技術包括整流訓練、Logit-norm時間步長採樣等，加快了模型訓練速度，減少了推理等待時間。

報告中也透露了模型訓練的核心細節，包括資料清洗、模型調優技巧，以及模型評估系統的建構。他們甚至提供了一鍵部署的Gradio應用，支援多種參數調節。

潞晨Open-Sora的開源，打破了閉環，為文生視頻的創新和發展注入了活力。用戶從內容消費者轉變為創造者，企業用戶解鎖了自主開發新技能。

Open-Sora的開源，降低了文生視訊技術的進入門檻，為未來的創意內容生成提供了無限可能，值得期待後續發展和更多應用程式場景的探索。