香港科学技術大学および中国の科学技術大学の研究チームは、Open-Worldゲームビデオを生成および制御できる拡散コンバーターモデルであるGameGen-Xモデルを共同で開発しました。 GameGen-Xは、革新的なキャラクター、ダイナミック環境、複雑なアクションを含むゲームビデオを生成するだけでなく、ユーザーのマルチモーダル命令(テキストやキーボード操作など)に従ってゲームコンテンツをリアルタイムで調整し、ユーザーが設計の楽しみを体験できるようにすることもできます。ゲーム自体。この研究結果は、ゲーム開発の分野におけるAIの大きなブレークスルーを示し、ゲームコンテンツの作成に新しい可能性を提供します。
GameGen-Xは、革新的なキャラクター、動的環境、複雑なアクション、多様なイベントを生成するなど、さまざまなゲームエンジン機能をシミュレートでき、存在の喜びを体験できるように、さまざまなゲームエンジン機能をシミュレートできるようにして、それ自体でオープンワールドゲームビデオを生成できます。ゲーム計画。
GameGen-Xのハイライトの1つは、相互作用における制御可能性です。現在のゲームクリップに基づいて将来のコンテンツを予測および変更し、ゲームプレイのシミュレーションを可能にすることができます。
ユーザーは、構造化されたテキスト命令やキーボード制御などのマルチモーダル制御信号を介して生成されたコンテンツに影響を与え、それにより、文字の相互作用とシーンコンテンツを制御することができます。
GameGen-Xを訓練するために、研究者は最初の大規模なオープンワールドゲームビデオデータセットであるOgamedataも構築しました。このデータセットには、150を超えるゲームとは異なるゲームの100万を超えるビデオクリップが含まれており、GPT-4oを使用して有益なテキストの説明を生成します。
GameGen-Xのトレーニングプロセスは、基本モデルの事前トレーニングと指導の微調整の2つの段階に分けられます。第1フェーズでは、モデルはテキストからビデオへの生成およびビデオの継続タスクを通じて事前に訓練されており、高品質で長期のオープンドメインゲームビデオを生成できるようにします。
第2フェーズでは、インタラクティブな制御性を実現するために、研究者は、ゲームに関連するマルチモーダル制御信号の専門家を統合するInstructNetモジュールを設計しました。
InstructNetを使用すると、モデルはユーザー入力に基づいて潜在的な表現を調整できるため、ビデオ生成における文字相互作用とシーンコンテンツコントロールを初めて統合できます。命令の微調整中に、Instructnetのみが更新されますが、事前に訓練されたベースモデルが凍結されているため、生成されたビデオコンテンツの多様性と品質を失うことなく、モデルがインタラクティブな制御性を統合できます。
実験結果は、GameGen-Xが高品質のゲームコンテンツの生成においてうまく機能し、他のオープンソースやビジネスモデルよりも優れた環境とキャラクターを優れた制御を提供することを示しています。
もちろん、このAIはまだ初期段階にあり、ゲーム計画を本当に置き換える前にまだ長い道のりがあります。しかし、その出現は間違いなくゲーム開発に新しい可能性をもたらします。ゲームコンテンツの設計と開発への新しいアプローチを提供し、伝統的なレンダリングテクノロジーの補助ツールとしての生成モデルの可能性を実証し、クリエイティブ生成とインタラクティブな機能を効果的に統合し、将来のゲーム開発の可能性に新しいものをもたらします。
プロジェクトアドレス:https://gamegen-x.github.io/
GameGen-Xはまだ開発の初期段階にありますが、ゲームビデオ生成と相互作用制御における優れたパフォーマンスは、ゲーム業界でのAIテクノロジーの適用の幅広い見通しを示しています。将来、GameGen-Xはゲーム開発者の優れたアシスタントになり、ゲーム業界の革新的な開発を促進することが期待されています。