Alibaba lançou o modelo de vídeo de geração de imagem I2VGen-XL em novembro, e seu código e modelo são finalmente oficialmente de código aberto. O modelo usa um método de processamento de dois estágios. O primeiro estágio garante a coerência semântica e o segundo estágio melhora os detalhes e a resolução do vídeo integrando texto curto. Através do treinamento massivo de dados, o I2VGen-XL demonstrou maior precisão semântica, continuidade de detalhes e clareza no campo da geração de vídeo, trazendo novos avanços no campo da geração de imagem para vídeo.
O Alibaba anunciou o modelo de vídeo de geração de imagem I2VGen-XL de código aberto em um artigo publicado em novembro e agora finalmente lançou o código e o modelo específicos. O modelo é processado em dois estágios, primeiro um estágio base para garantir a coerência semântica e, em seguida, um estágio de otimização para melhorar os detalhes do vídeo e melhorar a resolução através da integração de texto curto. A equipe de pesquisa coletou uma grande quantidade de dados para otimização, para que o modelo I2VGen-XL tenha maior precisão semântica, continuidade de detalhes e clareza na geração de vídeos. O código detalhado pode ser encontrado no GitHub.O código aberto do modelo I2VGen-XL fornece recursos valiosos para pesquisadores e desenvolvedores e ajuda a promover o desenvolvimento da tecnologia de vídeo de geração de imagens. Seu fluxo de processamento eficiente e excelentes efeitos de geração indicam o enorme potencial da tecnologia de vídeo gerada por IA no futuro. Espere por aplicações mais inovadoras baseadas em I2VGen-XL.