生數科技視頻生成模型Vidu 1.5版發布攻克“多主體一致性”難題- AI文章

作者：Eve Cole 更新時間：2025-02-12 03:32:01

生數科技在Vidu上線逾百日後，隆重推出Vidu 1.5版本，該版本在理解多樣化輸入和解決“一致性”難題上取得了世界領先的突破。這標誌著視覺模型進入“上下文”時代，為通用人工智能（AGI）的加速發展奠定了堅實基礎。 Vidu 1.5 並非簡單的功能升級，而是視覺模型智能湧現的體現，它具備更強大的上下文學習能力、記憶管理能力以及高效的生成效率，可在不到30秒內生成一段高質量視頻。

在Vidu上線逾百日之際，生數科技自豪地宣布Vidu1.5新版本的問世，該版本實現了世界領先水平的突破，特別是在理解多樣化輸入和突破“一致性”難題方面。

Vidu1.5的推出標誌著視覺模型進入了全新的“上下文”時代，加速了通用人工智能（AGI）的到來。 Vidu在全球上線之初便具備了角色一致性生成能力，通過鎖定人物面部特徵解決了視頻生成中的關鍵痛點。 9月份，Vidu全球率先發布了“主體一致性”功能，將面部一致性拓展至全身一致性，並將範圍擴展到動物、物體、虛擬角色等任意主體。 Vidu的技術突破主要體現在三個方面:複雜主體的精準控制、人物面部特徵和動態表情的自然一致性、多主體一致性。

微信截图_20241113135537.png

微信截图_20241113135531.png

Vidu1.5展現了視覺模型全新的“智能湧現”，展示了其強大的上下文學習能力。這意味著視覺模型不僅具備了理解和想像的能力，還能夠在生成過程中進行記憶管理。 Vidu1.5延續了其業界領先的生成效率，不到30秒即可生成一段視頻。 Vidu秉承通用性的理念，與LLM（大型語言模型）一致的設計哲學，將所有問題統一為視覺輸入和視覺輸出的問題，使用單個Transformer統一建模變長的輸入和輸出，並從視頻數據的壓縮中獲取智能。

Vidu1.5的推出，不僅提升了視頻模型的可控性，還通過靈活的多元輸入實現了多角度、多主體、多元素的一致性生成。這標誌著視覺智能的湧現，加速了AGI的到來。 Vidu不再僅僅是一個高質量、高效的視頻生成器，它還能在生成過程中融入上下文信息和記憶，這是視覺模態智能的“大跨越”。視覺模型將具備更強的認知能力，成為AGI的一塊重要拼圖。

體驗地址:www.vidu.studio

Vidu 1.5的發布，不僅是技術上的突破，更是視覺智能領域的一次里程碑式進展。它為AGI的未來發展提供了新的可能性，值得期待其在更多領域的應用與創新。歡迎訪問體驗地址，感受視覺智能的魅力！