El editor de Downcodes se enteró de que investigadores del ByteDance Research Institute y la Universidad Tsinghua publicaron recientemente un estudio que reveló fallas importantes en los modelos actuales de generación de videos de IA, como Sora de OpenAI, en la comprensión de las leyes físicas. A través de una serie de pruebas, el estudio profundizó en el desempeño de estos modelos en diferentes escenarios y analizó los mecanismos detrás de ellos. Los resultados de la investigación advierten contra las limitaciones de la tecnología actual de generación de vídeo mediante IA, lo que ha provocado un pensamiento generalizado en la industria sobre la capacidad de la IA para simular la realidad.
El equipo de investigación probó el modelo de generación de video de IA y configuró tres escenarios diferentes: predicción en modos conocidos, predicción en modos desconocidos y nuevas combinaciones de elementos familiares. Su objetivo era ver si estos modelos realmente aprendían las leyes de la física o simplemente se basaban en las características de la superficie durante el entrenamiento.
A través de las pruebas, los investigadores descubrieron que estos modelos de IA no aprendían reglas universalmente aplicables. En cambio, se basan principalmente en características de la superficie como el color, el tamaño, la velocidad y la forma al generar videos, y siguen un estricto orden de prioridad: primero el color, seguido del tamaño, la velocidad y la forma.
Estos modelos funcionaron casi a la perfección en escenarios familiares, pero fueron incapaces de hacerlo una vez que se encontraron con situaciones desconocidas. Una prueba del estudio demuestra las limitaciones de los modelos de IA cuando se trata del movimiento de objetos. Por ejemplo, cuando el modelo fue entrenado con una esfera de movimiento rápido que se movía hacia adelante y hacia atrás, pero cuando se probó con una esfera de movimiento lento, el modelo en realidad mostró que la esfera cambió repentinamente de dirección después de unos pocos fotogramas. Este fenómeno también se refleja claramente en vídeos relacionados.
Los investigadores señalan que simplemente ampliar el modelo o agregar más datos de entrenamiento no resolverá el problema. Si bien los modelos más grandes funcionan mejor con patrones y combinaciones familiares, aún no comprenden la física básica ni manejan escenarios más allá de su rango de entrenamiento. El coautor del estudio, Kang Bingyi, mencionó: "Si la cobertura de datos es lo suficientemente buena en un escenario específico, se puede formar un modelo mundial sobreajustado, pero este modelo no cumple con la definición de un modelo del mundo real, porque un modelo del mundo real debería hacerlo". Ser capaz de generalizar más allá de los datos de entrenamiento.
El coautor Bingyi Kang demostró esta limitación en X, explicando que cuando entrenaron el modelo con una bola que se movía rápidamente de izquierda a derecha y hacia atrás, y luego lo probaron con una bola que se movía lentamente, el modelo mostró que la bola se movía repentinamente. cambia de dirección al cabo de unos pocos fotogramas (lo podéis ver en el vídeo de 1 minuto y 55 segundos).
Los hallazgos plantean un desafío para el proyecto Sora de OpenAI. OpenAI ha dicho que se espera que Sora evolucione hacia un verdadero modelo mundial a través de una expansión continua, e incluso afirma que ya tiene una comprensión básica de las interacciones físicas y la geometría tridimensional. Pero los investigadores señalan que la simple ampliación por sí sola no es suficiente para que los modelos generativos de vídeo descubran leyes físicas fundamentales.
El jefe de IA de Meta, Yann LeCun, también expresó escepticismo y dijo que predecir el mundo generando píxeles es "una pérdida de tiempo y está condenado al fracaso". A pesar de esto, mucha gente todavía espera que OpenAI lance Sora según lo programado a mediados de febrero de 2024 para demostrar su potencial para la generación de videos.
Esta investigación señala la dirección para el desarrollo del campo de la generación de videos con IA y también nos recuerda que la evaluación de las capacidades de la IA no puede limitarse a limitarse a los efectos superficiales, sino que también debe profundizar en sus mecanismos y limitaciones inherentes. En el futuro, cómo permitir que la IA comprenda y simule verdaderamente el mundo físico seguirá siendo un gran desafío.