Alibaba lanzó el modelo de video de generación de imágenes I2VGen-XL en noviembre, y su código y modelo finalmente son oficialmente de código abierto. El modelo utiliza un método de procesamiento de dos etapas. La primera etapa garantiza la coherencia semántica y la segunda etapa mejora los detalles y la resolución del video mediante la integración de texto breve. A través de un entrenamiento masivo de datos, I2VGen-XL ha demostrado una mayor precisión semántica, continuidad de detalles y claridad en el campo de la generación de video, aportando nuevos avances en el campo de la generación de imágenes a videos.
Alibaba anunció el modelo de video de generación de imágenes I2VGen-XL de código abierto en un artículo publicado en noviembre, y ahora finalmente ha publicado el código y el modelo específicos. El modelo se procesa en dos etapas, primero una etapa base para garantizar la coherencia semántica y luego una etapa de optimización para mejorar los detalles del video y mejorar la resolución mediante la integración de texto corto. El equipo de investigación recopiló una gran cantidad de datos para la optimización, de modo que el modelo I2VGen-XL tenga mayor precisión semántica, continuidad de detalles y claridad en la generación de videos. El código detallado se puede encontrar en GitHub.El código abierto del modelo I2VGen-XL proporciona recursos valiosos para investigadores y desarrolladores y ayuda a promover un mayor desarrollo de la tecnología de vídeo de generación de imágenes. Su flujo de procesamiento eficiente y sus excelentes efectos de generación indican el enorme potencial de la tecnología de vídeo generada por IA en el futuro. Esperamos aplicaciones más innovadoras basadas en I2VGen-XL.