Forschungsteams der Hongkong University of Science and Technology und der University of Science and Technology of China haben gemeinsam das GameGen-X-Modell entwickelt, ein Diffusions-Konverter-Modell, mit dem Open-World-Spielenvideos generiert und interaktiv gesteuert werden können. GameGen-X kann nicht nur Spielvideos generieren, die innovative Charaktere, dynamische Umgebungen und komplexe Aktionen enthalten, sondern auch Spielinhalte in Echtzeit gemäß den multimodalen Anweisungen des Benutzers (wie Text- und Tastaturbetrieb) anpassen, sodass Benutzer den Spaß beim Entwerfen erleben können Spiele selbst. Dieses Forschungsergebnis markiert einen großen Durchbruch in der KI im Bereich der Spieleentwicklung und bietet neue Möglichkeiten für die Erstellung von Spielinhalten.
GameGen-X kann sich selbst mit offenen Spielvideos erstellen, die verschiedene Spiele-Engine-Funktionen simulieren können, einschließlich innovativer Charaktere, dynamischen Umgebungen, komplexen Aktionen und vielfältigen Ereignisse und können auch mit Ihnen interagieren, um das Vergnügen des Seins zu erleben eine Spielplanung.
Einer der Highlights von GameGen-X ist seine Kontrolle in der Interaktion. Es kann zukünftige Inhalte auf der Grundlage aktueller Spielclips vorhersagen und verändern, wodurch die Simulation des Gameplays ermöglicht wird.
Benutzer können den generierten Inhalt durch multimodale Kontrollsignale wie strukturierte Textanweisungen und Tastatursteuerung beeinflussen, wodurch die Steuerung der Charakterinteraktion und des Szeneninhalts gesteuert wird.
Um GameGen-X zu trainieren, bauten die Forscher auch den ersten großen Video-Video-Datensatz für offene Welt, Ogamedata. Dieser Datensatz enthält mehr als 1 Million Videoclips verschiedener Spiele aus mehr als 150 Spielen und verwendet GPT-4O, um informative Textbeschreibungen dafür zu generieren.
Der Trainingsprozess von GameGen-X ist in zwei Phasen unterteilt: Basismodell vor der Ausbildung und der Befehlsfeineinstellung. In der ersten Phase wird das Modell durch Text-to-Video-Erzeugung und Video-Fortsetzungsaufgaben vorgebracht, sodass es eine hochwertige Langzeit-Open-Domain-Spielvideos erzeugen kann.
In der zweiten Phase entwickelten die Forscher das InstructNet -Modul, das multimodale Steuerungssignalexperten im Zusammenhang mit dem Spiel integriert, um eine interaktive Kontrollebarkeit zu erreichen.
Mit InstructNet können Modelle potenzielle Darstellungen basierend auf der Benutzereingabe anpassen und so erstmals Charakterinteraktion und Szeneninhalt in der Videogenerierung vereinheitlichen. Während der Feinabstimmung der Anweisungen wird nur das Anweisungen aktualisiert, während das vorgeborene Basismodell gefroren ist, sodass das Modell die interaktive Steuerbarkeit integrieren kann, ohne die Vielfalt und Qualität des generierten Videoinhalts zu verlieren.
Experimentelle Ergebnisse zeigen, dass GameGen-X eine gute Leistung bei der Erzeugung von hochwertigen Spielinhalten bietet und eine hervorragende Kontrolle über die Umgebung und die Charaktere bietet, die anderen Open-Source- und Geschäftsmodellen überlegen sind.
Natürlich steckt diese KI noch in den Kinderschuhen und es ist noch ein langer Weg vor sich, bevor es die Spielplanung wirklich ersetzt. Aber seine Entstehung bringt zweifellos neue Möglichkeiten für die Spielentwicklung. Es bietet einen neuen Ansatz für das Design und die Entwicklung des Spielinhalts, das das Potenzial generativer Modelle als Hilfsmittel für traditionelle Rendering -Technologie demonstriert und die kreative Generation und die interaktiven Funktionen effektiv integriert und neue Dinge in zukünftige Spielentwicklungsmöglichkeiten einbringt.
Projektadresse: https://gamegen-x.github.io/
Obwohl GameGen-X noch in den frühen Entwicklungsstadien steckt, weist seine herausragende Leistung in der Spielerzeugung und der Interaktionskontrolle auf eine breite Aussicht auf die Anwendung der KI-Technologie in der Spielebranche hin. In Zukunft wird GameGen-X in Zukunft ein guter Assistent für Spieleentwickler und die innovative Entwicklung der Spielebranche fördern.