L’éditeur de Downcodes a appris que des chercheurs du ByteDance Research Institute et de l’Université Tsinghua ont récemment publié une étude révélant des failles majeures dans les modèles actuels de génération de vidéos d’IA, tels que Sora d’OpenAI, dans la compréhension des lois physiques. Grâce à une série de tests, l’étude a examiné les performances de ces modèles dans différents scénarios et analysé les mécanismes qui les sous-tendent. Les résultats de la recherche mettent en garde contre les limites de la technologie actuelle de génération de vidéos IA, déclenchant une réflexion largement répandue dans l'industrie sur la capacité de l'IA à simuler la réalité.
L'équipe de recherche a testé le modèle de génération vidéo IA et a mis en place trois scénarios différents, à savoir la prédiction dans des modes connus, la prédiction dans des modes inconnus et de nouvelles combinaisons d'éléments familiers. Leur objectif était de voir si ces modèles apprenaient réellement les lois de la physique ou s’ils s’appuyaient simplement sur les caractéristiques de la surface lors de l’entraînement.
Grâce à des tests, les chercheurs ont découvert que ces modèles d’IA n’apprenaient pas de règles universellement applicables. Au lieu de cela, ils s'appuient principalement sur des caractéristiques de surface telles que la couleur, la taille, la vitesse et la forme lors de la génération de vidéos, et suivent un ordre de priorité strict : la couleur d'abord, suivie de la taille, de la vitesse et de la forme.
Ces modèles fonctionnaient presque parfaitement dans des scénarios familiers, mais étaient incapables de le faire lorsqu'ils étaient confrontés à des situations inconnues. Un test de l’étude démontre les limites des modèles d’IA lorsqu’il s’agit du mouvement d’objets. Par exemple, lorsque le modèle a été entraîné avec une sphère en mouvement rapide se déplaçant d'avant en arrière, mais lorsqu'il a été testé avec une sphère en mouvement lent, le modèle a en fait montré que la sphère a soudainement changé de direction après quelques images. Ce phénomène se reflète également clairement dans les vidéos associées.
Les chercheurs soulignent que le simple fait d'étendre le modèle ou d'ajouter davantage de données de formation ne résoudra pas le problème. Bien que les modèles plus grands fonctionnent mieux avec des modèles et des combinaisons familiers, ils ne parviennent toujours pas à comprendre la physique de base ou à gérer des scénarios au-delà de leur plage d'entraînement. Kang Bingyi, co-auteur de l'étude, a déclaré : « Si la couverture des données est suffisamment bonne dans un scénario spécifique, un modèle mondial surajusté peut être formé. Mais ce modèle ne répond pas à la définition d'un modèle du monde réel, car un modèle du monde réel devrait le faire. » être capable de généraliser au-delà des données de formation.
Le co-auteur Bingyi Kang a démontré cette limitation sur X, expliquant que lorsqu'ils ont entraîné le modèle avec une balle rapide se déplaçant de gauche à droite et vers l'arrière, puis l'ont testé avec une balle lente, le modèle a montré la balle se déplaçant soudainement. change de direction après seulement quelques images (vous pouvez le voir dans la vidéo à 1 minute et 55 secondes).
Les résultats posent un défi au projet Sora d'OpenAI. OpenAI a déclaré que Sora devrait évoluer vers un véritable modèle mondial grâce à une expansion continue, et affirme même qu'il possède déjà une compréhension de base des interactions physiques et de la géométrie tridimensionnelle. Mais les chercheurs soulignent qu’une simple mise à l’échelle ne suffit pas à elle seule pour que les modèles génératifs vidéo découvrent les lois physiques fondamentales.
Le responsable de l'IA de Meta, Yann LeCun, a également exprimé son scepticisme, affirmant que prédire le monde en générant des pixels est "une perte de temps et voué à l'échec". Malgré cela, de nombreuses personnes s’attendent toujours à ce qu’OpenAI publie Sora comme prévu à la mi-février 2024 pour démontrer son potentiel en matière de génération vidéo.
Cette recherche indique l'orientation du développement du domaine de la génération vidéo IA et nous rappelle également que l'évaluation des capacités de l'IA ne peut pas se limiter aux effets superficiels, mais doit également approfondir ses mécanismes et ses limites inhérents. À l’avenir, permettre à l’IA de véritablement comprendre et simuler le monde physique reste un défi de taille.