香港科技大學和中國科學技術大學的研究團隊共同研發了GameGen-X模型,這是一個能夠生成並互動控制開放世界遊戲視頻的擴散變換器模型。 GameGen-X不僅能自主生成包含創新角色、動態環境和復雜動作的遊戲視頻,還能根據用戶的多模態指令(如文本和鍵盤操作)實時調整遊戲內容,讓用戶體驗到親自設計遊戲的樂趣。這項研究成果標誌著AI在遊戲開發領域的重大突破,為遊戲內容創作提供了全新的可能性。
GameGen-X能自己生成開放世界遊戲視頻,可以模擬各種遊戲引擎功能,包括生成創新角色、動態環境、複雜動作和多樣化事件,還能跟你互動,讓你體驗一把當遊戲策劃的快感。
GameGen-X 的一大亮點在於其互動可控性。它可以根據當前的遊戲片段預測和改變未來內容,從而實現遊戲玩法的模擬。
用戶可以通過多模態控制信號,如結構化文本指令和鍵盤控制,來影響生成的內容,從而實現對角色互動和場景內容的控制。
為了訓練GameGen-X,研究人員還構建了第一個大型開放世界遊戲視頻數據集OGameData。該數據集包含超過100萬個來自150多款遊戲的不同遊戲視頻片段,並利用GPT-4o 為其生成了informative 的文本描述。
GameGen-X 的訓練過程分為兩個階段:基礎模型預訓練和指令微調。在第一階段,模型通過文本到視頻生成和視頻延續任務進行預訓練,使其能夠生成高質量、長序列的開放域遊戲視頻。
在第二階段,為了實現互動可控性,研究人員設計了InstructNet 模塊,該模塊集成了與遊戲相關的多模態控制信號專家。
InstructNet 允許模型根據用戶輸入調整潛在表示,從而首次在視頻生成中統一了角色互動和場景內容控制。在指令微調過程中,只有InstructNet 被更新,而預訓練的基礎模型被凍結,這使得模型能夠在不損失生成視頻內容多樣性和質量的情況下集成互動可控性。
實驗結果表明,GameGen-X 在生成高質量遊戲內容方面表現出色,並提供了對環境和角色的出色控制能力,優於其他開源和商業模型。
當然,這AI 現在還只是個初級階段,離真正取代遊戲策劃還有很長的路要走。但它的出現,無疑給遊戲開髮帶來了新的可能性。它為遊戲內容設計和開發提供了一種新的方法,展示了生成模型作為傳統渲染技術的輔助工具的潛力,有效地將創意生成與互動功能融合在一起,為未來的遊戲開髮帶來了新的可能性。
項目地址:https://gamegen-x.github.io/
儘管GameGen-X目前仍處於發展初期,但其在遊戲視頻生成和互動控制方面的卓越表現,預示著AI技術在遊戲行業應用的廣闊前景。未來,GameGen-X有望成為遊戲開發者的得力助手,推動遊戲產業的創新發展。