Der Herausgeber von Downcodes erfuhr, dass Forscher des ByteDance Research Institute und der Tsinghua University kürzlich eine Studie veröffentlicht haben, die große Mängel in aktuellen KI-Videogenerierungsmodellen wie Sora von OpenAI beim Verständnis physikalischer Gesetze aufgedeckt hat. Durch eine Reihe von Tests untersuchte die Studie die Leistung dieser Modelle in verschiedenen Szenarien und analysierte die dahinter stehenden Mechanismen. Die Forschungsergebnisse warnen vor den Grenzen der aktuellen KI-Technologie zur Videoerzeugung und lösen in der Branche weit verbreitete Überlegungen zur Fähigkeit von KI zur Simulation der Realität aus.
Das Forschungsteam testete das KI-Videogenerierungsmodell und erstellte drei verschiedene Szenarien, nämlich Vorhersage unter bekannten Modi, Vorhersage unter unbekannten Modi und neue Kombinationen bekannter Elemente. Ihr Ziel war herauszufinden, ob diese Modelle tatsächlich die Gesetze der Physik erlernten oder sich beim Training einfach auf Oberflächenmerkmale stützten.
Durch Tests stellten die Forscher fest, dass diese KI-Modelle keine allgemeingültigen Regeln lernten. Stattdessen verlassen sie sich bei der Erstellung von Videos hauptsächlich auf Oberflächenmerkmale wie Farbe, Größe, Geschwindigkeit und Form und befolgen eine strikte Prioritätsreihenfolge: Farbe zuerst, gefolgt von Größe, Geschwindigkeit und Form.
Diese Modelle funktionierten in bekannten Szenarien nahezu perfekt, konnten dies jedoch nicht mehr, wenn sie auf unbekannte Situationen trafen. Ein Test in der Studie zeigt die Grenzen von KI-Modellen beim Umgang mit Objektbewegungen. Wenn das Modell beispielsweise mit einer sich schnell bewegenden Kugel trainiert wurde, die sich hin und her bewegte, beim Testen jedoch mit einer sich langsam bewegenden Kugel, zeigte das Modell tatsächlich, dass die Kugel nach einigen Bildern plötzlich ihre Richtung änderte. Dieses Phänomen spiegelt sich auch deutlich in entsprechenden Videos wider.
Die Forscher weisen darauf hin, dass eine einfache Skalierung des Modells oder das Hinzufügen weiterer Trainingsdaten das Problem nicht lösen wird. Während größere Modelle mit vertrauten Mustern und Kombinationen eine bessere Leistung erbringen, verstehen sie die grundlegende Physik immer noch nicht und bewältigen Szenarien, die außerhalb ihres Trainingsbereichs liegen. Der Co-Autor der Studie, Kang Bingyi, erwähnte: „Wenn die Datenabdeckung in einem bestimmten Szenario gut genug ist, kann ein überangepasstes Weltmodell gebildet werden. Dieses Modell entspricht jedoch nicht der Definition eines realen Weltmodells, da dies bei einem realen Weltmodell der Fall sein sollte.“ in der Lage sein, über Trainingsdaten hinaus zu verallgemeinern.
Co-Autor Bingyi Kang demonstrierte diese Einschränkung bei ändert die Richtung bereits nach wenigen Bildern (im Video ist es bei 1 Minute und 55 Sekunden zu sehen).
Die Ergebnisse stellen eine Herausforderung für das Sora-Projekt von OpenAI dar. OpenAI hat erklärt, dass sich Sora voraussichtlich durch kontinuierliche Erweiterung zu einem echten Weltmodell entwickeln wird, und behauptet sogar, dass es bereits über ein grundlegendes Verständnis physikalischer Wechselwirkungen und dreidimensionaler Geometrie verfügt. Die Forscher weisen jedoch darauf hin, dass eine einfache Skalierung allein für videogenerative Modelle nicht ausreicht, um grundlegende physikalische Gesetze zu entdecken.
Yann LeCun, Leiter der KI-Abteilung bei Meta, äußerte sich ebenfalls skeptisch und sagte, dass die Vorhersage der Welt durch die Generierung von Pixeln „Zeitverschwendung und zum Scheitern verurteilt“ sei. Trotzdem gehen viele Menschen immer noch davon aus, dass OpenAI Sora wie geplant Mitte Februar 2024 veröffentlichen wird, um sein Potenzial für die Videogenerierung zu demonstrieren.
Diese Forschung zeigt die Richtung für die Entwicklung des Bereichs der KI-Videogenerierung auf und erinnert uns auch daran, dass die Bewertung der KI-Fähigkeiten nicht nur bei den oberflächlichen Effekten bleiben darf, sondern sich auch mit den inhärenten Mechanismen und Grenzen befassen muss. Auch in Zukunft bleibt es eine große Herausforderung, der KI zu ermöglichen, die physische Welt wirklich zu verstehen und zu simulieren.