Recentemente, um estudo conduzido em conjunto pelo Bytedance Research Institute e pela Universidade de Tsinghua levantou questões sobre a capacidade de compreensão física dos atuais modelos de geração de vídeo de IA. Por meio de experimentos cuidadosamente projetados, a equipe de pesquisa descobriu que esses modelos, como o Sora de Openai, embora visualmente impressionantes, não entendiam realmente as leis físicas básicas, mas, em vez disso, confiaram na cor, tamanho e aprendizado e priorização de recursos de superfície, como velocidade e forma. Este estudo desencadeou o pensamento aprofundado das pessoas sobre a realidade da simulação de IA e também desafia os modelos de IA que se gabam de suas capacidades de entendimento físico.
Recentemente, pesquisadores do Bytedance Research Institute e da Universidade de Tsinghua divulgaram em conjunto um novo estudo, apontando que o atual modelo de geração de vídeo da IA, como o Openai's Sora, pode criar efeitos visuais incríveis, mas entendem a física básica. . Este estudo provocou uma extensa discussão sobre a capacidade da IA de simular a realidade.
A equipe de pesquisa testou o modelo de geração de vídeo da IA e estabeleceu três cenários diferentes, a saber, previsão no modo conhecido, previsão no modo desconhecido e novas combinações de elementos familiares. Seu objetivo é ver se esses modelos realmente aprendem as leis da física ou se eles dependem apenas de recursos de superfície no treinamento.
Através dos testes, os pesquisadores descobriram que esses modelos de IA não aprenderam regras universalmente aplicáveis. Em vez disso, eles dependem principalmente de recursos de superfície, como cor, tamanho, velocidade e forma ao gerar vídeos, e seguem uma ordem rigorosa de prioridade: a cor é preferida, seguida de tamanho, velocidade e forma.
Em cenários familiares, esses modelos têm desempenho quase perfeitamente, mas uma vez que encontram situações desconhecidas, parecem impotentes. Um teste no estudo demonstra as limitações dos modelos de IA ao lidar com os movimentos dos objetos. Por exemplo, quando o modelo treina usando esferas em movimento rápido para se mover para frente e para trás, fornecendo -lhes esferas lentas durante os testes, o modelo mostra que a esfera muda repentinamente de direção após alguns quadros. Esse fenômeno também se reflete claramente nos vídeos relacionados.
Os pesquisadores apontam que simplesmente expandir o tamanho do modelo ou aumentar os dados de treinamento não resolve o problema. Embora modelos maiores tenham melhor desempenho sob padrões e combinações familiares, eles ainda não conseguem entender as leis físicas básicas ou lidar com cenários além do escopo do treinamento. O co-autor de pesquisa Kang Bingyi mencionou: "Se a cobertura de dados é boa o suficiente em um cenário específico, pode ser possível formar um modelo mundial demais". O modelo mundial deve ser capaz de promover além dos dados do treinamento.
O co-autor Bingyi Kang demonstrou essa limitação em X, explicando que quando eles treinaram o modelo com uma bola em movimento rápido da esquerda para a direita e para trás, depois testados com uma bola lenta, o modelo mostrou a bola depois de apenas alguns quadros, a direção mudou de repente (você pode vê -lo no vídeo de 1 minuto e 55 segundos).
Os resultados deste estudo desafiam o programa SORA do OpenAI. O Openai disse que a Sora deve se transformar em um verdadeiro modelo mundial por meio de expansão contínua, e até afirma que tem um entendimento básico da interação física e da geometria tridimensional. Mas os pesquisadores apontam que a expansão simples de escala sozinha não é suficiente para permitir que modelos de geração de vídeo descubram leis físicas básicas.
Yann Lecun, chefe de IA da Meta, também expressou dúvidas sobre isso, acreditando que a prática de prever o mundo, gerando pixels é "uma perda de tempo e fadada a falhar". Apesar disso, muitas pessoas ainda estão ansiosas para o lançamento do Sora de Openai, conforme programado em meados de fevereiro de 2024, demonstrando seu potencial de geração de vídeo.
Pontos -chave:
A pesquisa constatou que o modelo de geração de vídeo da IA tem grandes falhas na compreensão das leis físicas e depende das características da superfície dos dados de treinamento.
Escalar o tamanho do modelo não resolve o problema, que não está com um bom desempenho em cenários desconhecidos.
O programa SORA da Openai enfrenta desafios e, por si só, a expansão não pode alcançar um modelo mundial verdadeiro.
Em suma, este estudo apontou a direção para o desenvolvimento da tecnologia de geração de vídeo de IA, ou seja, a expansão simples de escala não pode resolver o problema fundamental da compreensão da IA sobre as leis físicas. No futuro, os modelos de IA precisam aprender e entender os princípios físicos mais profundamente, a fim de realmente obter simulação e previsão precisas do mundo real, em vez de apenas permanecer no estágio de imitar os recursos da superfície.