O editor do Downcodes aprendeu que pesquisadores do ByteDance Research Institute e da Universidade Tsinghua divulgaram recentemente um estudo que revelou grandes falhas nos atuais modelos de geração de vídeo de IA, como o Sora da OpenAI, na compreensão das leis físicas. Por meio de uma série de testes, o estudo aprofundou o desempenho desses modelos em diferentes cenários e analisou os mecanismos por trás deles. Os resultados da pesquisa alertam contra as limitações da atual tecnologia de geração de vídeo por IA, desencadeando um pensamento generalizado na indústria sobre a capacidade da IA de simular a realidade.
A equipe de pesquisa testou o modelo de geração de vídeo de IA e configurou três cenários diferentes, ou seja, previsão em modos conhecidos, previsão em modos desconhecidos e novas combinações de elementos familiares. O objetivo deles era ver se esses modelos realmente aprendiam as leis da física ou simplesmente dependiam das características da superfície no treinamento.
Através de testes, os investigadores descobriram que estes modelos de IA não aprenderam regras universalmente aplicáveis. Em vez disso, eles dependem principalmente de recursos de superfície como cor, tamanho, velocidade e forma ao gerar vídeos e seguem uma ordem estrita de prioridade: cor primeiro, seguida por tamanho, velocidade e forma.
Esses modelos tiveram desempenho quase perfeito em cenários familiares, mas foram incapazes de fazê-lo quando encontraram situações desconhecidas. Um teste do estudo demonstra as limitações dos modelos de IA ao lidar com o movimento de objetos. Por exemplo, quando o modelo foi treinado com uma esfera em movimento rápido movendo-se para frente e para trás, mas quando testado com uma esfera em movimento lento, o modelo realmente mostrou que a esfera mudou repentinamente de direção após alguns quadros. Este fenômeno também se reflete claramente nos vídeos relacionados.
Os pesquisadores apontam que simplesmente ampliar o modelo ou adicionar mais dados de treinamento não resolverá o problema. Embora modelos maiores tenham melhor desempenho com padrões e combinações familiares, eles ainda não conseguem compreender a física básica ou lidar com cenários além do seu alcance de treinamento. O co-autor do estudo, Kang Bingyi, mencionou: “Se a cobertura de dados for boa o suficiente em um cenário específico, um modelo mundial de overfitting pode ser formado, mas este modelo não atende à definição de um modelo do mundo real, porque um modelo do mundo real deveria”. ser capaz de generalizar além dos dados de treinamento.
O co-autor Bingyi Kang demonstrou essa limitação em X, explicando que quando treinaram o modelo com uma bola em movimento rápido movendo-se da esquerda para a direita e para trás e depois testaram-no com uma bola em movimento lento, o modelo mostrou a bola se movendo repentinamente. muda de direção após apenas alguns quadros (você pode ver no vídeo aos 1 minuto e 55 segundos).
As descobertas representam um desafio para o projeto Sora da OpenAI. A OpenAI disse que espera-se que Sora evolua para um verdadeiro modelo de mundo através da expansão contínua, e ainda afirma que já possui um conhecimento básico de interações físicas e geometria tridimensional. Mas os pesquisadores apontam que o simples aumento de escala por si só não é suficiente para que os modelos geradores de vídeo descubram as leis físicas fundamentais.
O chefe de IA da Meta, Yann LeCun, também expressou ceticismo, dizendo que prever o mundo gerando pixels é “uma perda de tempo e fadada ao fracasso”. Apesar disso, muitas pessoas ainda esperam que a OpenAI lance o Sora conforme programado, em meados de fevereiro de 2024, para demonstrar seu potencial para geração de vídeo.
Esta pesquisa aponta a direção para o desenvolvimento do campo de geração de vídeo de IA, e também nos lembra que a avaliação das capacidades da IA não pode ficar apenas nos efeitos superficiais, mas também precisa se aprofundar em seus mecanismos e limitações inerentes. No futuro, como permitir que a IA compreenda e simule verdadeiramente o mundo físico continua a ser um enorme desafio.