O mais recente modelo de vídeo Vincent da OpenAI, Sora, chocou a indústria com sua capacidade de gerar vídeos de alta definição de 60 segundos. Este modelo é baseado no modelo de difusão da arquitetura Transformer, que pode transformar diferentes tipos de informações visuais em patches visuais unificados, demonstrando poderosas capacidades de compreensão e simulação do mundo real. Embora a sua capacidade de prever o mundo físico seja atualmente limitada, o seu enorme potencial não pode ser ignorado e vale a pena esperar pelo seu desenvolvimento futuro.
O modelo de vídeo Vincent Sora lançado pela OpenAI pode gerar vídeos requintados de 60 segundos, causando sensação na indústria. Sora adota um modelo de difusão baseado em Transformer e pode transformar diferentes tipos de dados visuais em patches visuais unificados, o que lhe confere uma capacidade poderosa de compreender e simular o mundo real. Comparado com simulações físicas anteriores, o valor preditivo de Sora para o mundo físico ainda é limitado, mas com a melhoria das capacidades do modelo, o seu potencial de desenvolvimento futuro é enorme. Estimuladas por Sora, outras start-ups da Vincent Video também aumentaram os seus esforços de investigação e desenvolvimento. OpenAI se concentra em melhorar as capacidades do modelo, enquanto outras empresas se concentram mais na produção. As duas ideias de desenvolvimento diferentes têm suas próprias vantagens.
O surgimento do Sora não apenas promove o avanço da tecnologia de vídeo Vincent, mas também traz novas possibilidades para o campo da IA. No futuro, à medida que a tecnologia continua a desenvolver-se e a melhorar, podemos esperar que Sora e modelos semelhantes de IA nos tragam aplicações e experiências mais surpreendentes. A melhoria da sua capacidade de prever o mundo físico também merece atenção contínua.