Recientemente, un estudio realizado conjuntamente por Bytedance Research Institute y la Universidad de Tsinghua plantearon preguntas sobre la capacidad de comprensión física de los modelos actuales de generación de videos de IA. A través de experimentos cuidadosamente diseñados, el equipo de investigación descubrió que estos modelos, como Sora de OpenAi, aunque visualmente impresionantes, realmente no entendían las leyes físicas básicas, sino que se basaban en el color, el tamaño y el aprendizaje y la priorización de las características de la superficie como la velocidad y forma. Este estudio ha desencadenado el pensamiento profundo de las personas sobre la realidad de la simulación de IA, y también desafía los modelos de IA que se jactan de sus capacidades de comprensión física.
Recientemente, los investigadores del Instituto de Investigación de Bytedance y la Universidad de Tsinghua publicaron conjuntamente un nuevo estudio, señalando que el modelo actual de generación de videos de IA, como Sora de Openai, puede crear efectos visuales sorprendentes, pero comprender la física básica. . Este estudio ha provocado una amplia discusión sobre la capacidad de la IA para simular la realidad.
El equipo de investigación probó el modelo de generación de videos AI y estableció tres escenarios diferentes, a saber, predicción en modo conocido, predicción en modo desconocido y nuevas combinaciones de elementos familiares. Su objetivo es ver si estos modelos realmente aprenden las leyes de la física, o si dependen únicamente de las características de la superficie en el entrenamiento.
A través de las pruebas, los investigadores encontraron que estos modelos de IA no aprendían reglas universalmente aplicables. En cambio, dependen principalmente de características de la superficie como color, tamaño, velocidad y forma al generar videos, y siguen un orden estricto de prioridad: se prefiere el color, seguido de tamaño, velocidad y forma.
En escenarios familiares, estos modelos funcionan casi perfectamente, pero una vez que encuentran situaciones desconocidas, parecen impotentes. Una prueba en el estudio demuestra las limitaciones de los modelos de IA cuando se trata de movimientos de objetos. Por ejemplo, cuando el modelo entrena con esferas de movimiento rápido para moverse hacia adelante y hacia atrás, mientras les proporciona esferas lentas durante las pruebas, el modelo en realidad muestra que la esfera de repente cambia de dirección después de algunos cuadros. Este fenómeno también se refleja claramente en los videos relacionados.
Los investigadores señalan que simplemente expandir el tamaño del modelo o aumentar los datos de capacitación no resuelve el problema. Aunque los modelos más grandes funcionan mejor bajo patrones y combinaciones familiares, aún no pueden comprender las leyes físicas básicas o manejar escenarios más allá del alcance del entrenamiento. El coautor de la investigación, Kang Bingyi, mencionó: "Si la cobertura de datos es lo suficientemente buena en un escenario específico, puede ser posible formar un modelo mundial sobrecargado". El modelo mundial debería poder promover más allá de los datos de capacitación.
El coautor Bingyi Kang demostró esta limitación en X, explicando que cuando entrenaron el modelo con una bola de movimiento rápido de izquierda a derecha y hacia atrás, luego probó con una bola de movimiento lento, el modelo mostró la pelota después de solo unos pocos marcos, la dirección cambió repentinamente (puedes verla en el video de 1 minuto y 55 segundos).
Los resultados de este estudio desafían el programa SORA de Openai. Operai ha dicho que se espera que Sora se convierta en un verdadero modelo mundial a través de la expansión continua, e incluso afirma que tiene una comprensión básica de la interacción física y la geometría tridimensional. Pero los investigadores señalan que la expansión de escala simple por sí sola no es suficiente para permitir que los modelos de generación de videos descubran leyes físicas básicas.
Yann Lecun, jefe de IA en Meta, también expresó dudas sobre esto, creyendo que la práctica de predecir el mundo generando píxeles es "una pérdida de tiempo y condenada a fallar". A pesar de esto, muchas personas todavía están ansiosas por el lanzamiento de Sora de OpenAi según lo programado a mediados de febrero de 2024, demostrando su potencial de generación de videos.
Puntos clave:
La investigación encontró que el modelo de generación de videos de IA tiene defectos importantes en la comprensión de las leyes físicas y se basa en las características de la superficie de los datos de entrenamiento.
Escalar el tamaño del modelo no resuelve el problema, que no funciona bien en escenarios desconocidos.
El programa SORA de Openai enfrenta desafíos, y la escalada por sí sola no puede lograr un verdadero modelo mundial.
En resumen, este estudio señaló la dirección para el desarrollo de la tecnología de generación de videos de IA, es decir, la expansión de escala simple no puede resolver el problema fundamental de la comprensión de la IA de las leyes físicas. En el futuro, los modelos de IA necesitan aprender y comprender los principios físicos más profundamente para lograr realmente una simulación y predicción precisas del mundo real, en lugar de simplemente permanecer en la etapa de las características de la superficie de imitación.