Alibaba lanza el modelo de video de texto + imagen AtomoVideo, comparable a Gen-2 y Pika

Autor：Eve Cole Fecha de actualización：2025-01-04 19:48:01

El equipo técnico de Alibaba lanzó recientemente el modelo AtomoVideo, un modelo de inteligencia artificial que puede generar videos de alta fidelidad basados en texto e imágenes. El avance técnico de este modelo radica en su innovadora tecnología de modelado temporal y inyección de imágenes de granularidad múltiple, que ha demostrado un rendimiento comparable al de los modelos comerciales en las evaluaciones. Esto marca un progreso significativo en el campo de la generación de video, brinda posibilidades ilimitadas para la creación futura de contenido de video y también presagia el avance continuo de la IA en el campo de la generación de contenido multimodal.

El equipo técnico de Alibaba lanzó el modelo AtomoVideo, que puede generar videos de alta fidelidad a partir de texto e imágenes. Las innovaciones técnicas incluyen inyección de imágenes de granularidad múltiple y modelado de tiempo. Las evaluaciones muestran que es comparable a los modelos comerciales, lo que aporta nuevas posibilidades al campo de la generación de vídeo.

La aparición del modelo AtomoVideo no solo mejora la eficiencia y la calidad de la generación de video, sino que también proporciona nuevas herramientas e ideas para la creación de contenido de video en todos los ámbitos de la vida. En el futuro, con el avance continuo de la tecnología, creo que el modelo AtomoVideo desempeñará un papel en más campos y nos brindará contenido de video más interesante.